CVPR 2018摘要:第一部分

栏目: 编程工具 · 发布时间: 5年前

内容简介:本文为 AI 研习社编译的技术博客,原标题 :

CVPR 2018摘要:第一部分

本文为 AI 研习社编译的技术博客,原标题 :

NeuroNuggets: CVPR 2018 in Review,  Part I

作者 | Sergey Nikolenko、Aleksey Artamonov

翻译 | 老赵    校对 | 李晶

整理 | 菠萝妹

原文链接:

https://medium.com/neuromation-io-blog/neuronuggets-cvpr-2018-in-review-part-i-f22b8c223202

NeuroNuggets:CVPR 2018年回顾,第一部分

在Neuromation,我们一直在寻找有助于我们的研究的新的有趣想法。 还有什么比顶级会议更适合寻找它们的地方。 我们已经在CVPR(计算机视觉和模式识别)会议的研讨会DeepGlobe介绍了我们如何取得成功。 这次我们将仔细研究一下CVPR本身最有趣的论文。 这段时间,顶级会议是非常重要的事情,所以我们准备了一系列的推文。 我们介绍的论文没有特别的顺序,不仅选择优秀的论文,而且与我们在Neuromation所做的研究相关。 这一次,Aleksey Artamonov(你以前见过的人)准备了这份列表,我试图对其补充一些介绍。 在这个系列中,我们将非常简短,试图从每篇论文中提取最多一个有趣的点,所以在这种方式我们不能真正了解完整的工作,并强烈建议完整阅读论文。

GAN和计算机视觉

在第一部分中,我们专注于生成模型,即不仅可以区分猫狗,还可以生成新的猫和狗图像的机器学习模型。 对于计算机视觉,最成功的一类生成模型是生成性对抗网络(GAN),其鉴别器网络学习区分生成的对象和真实对象,生成器学习去欺骗鉴别器。 我们已经多次写过GAN(例如,这里和这里),所以让我们直接进入正题。

    寻找户外的小脸

Y. Bai等人,用生成性对抗网络在户外寻找小小的面孔

CVPR 2018摘要:第一部分

在沙特和中国研究人员的合作中,作者使用GAN来检测和放大人群照片上的非常小的面孔。 即使仅检测小面孔也是一个有趣的问题,普通的人脸检测器(例如,在我们之前的帖子中出现)通常无法解决该问题。 在这里,作者提出了一个端到端的流水线来提取面部,然后应用生成模型将其提升到4倍(一个称为超分辨率的过程)。 以下是论文中的流水线概览:

CVPR 2018摘要:第一部分

    PairedCycleGAN化妆

H. Chang等人,PairedCycleGAN:用于和去除化妆的不对称样式转移

CVPR 2018摘要:第一部分

条件GAN已经广泛用于图像处理; 我们已经提到过超分辨率,GAN也成功应用于风格转换。 使用GAN,可以学习与特定图像元素相对应的显着特征 - 然后更改它们。 在这项工作中,来自普林斯顿、伯克利和Adobe的研究人员提出了一个修饰照片的框架。 这项工作的一个有趣的部分是作者为不同的脸部组成部分(眼睛,嘴唇,皮肤)训练单独的生成器并分别应用它们,用不同的网络提取脸部组成部分:

CVPR 2018摘要:第一部分

    GANerated Hands

F. Mueller等人,GANerated Hands for Mon-time RGB for Real-Time 3D Hand Tracking

CVPR 2018摘要:第一部分

我们已经写过关于姿势估计的文章。 姿势估计的一个非常重要的子集(通常需要单独的模型)是手部跟踪。 通过挥动双手来操纵计算机的科幻主题尚未完全实现,仍然需要专门的硬件,如Kinect。 像往常一样,主要问题之一是数据:在哪里可以找到3D标记的真实视频流?在这项工作中,作者提出了一种条件GAN架构,能够将合成的3D模型转换为图像 然后用于训练手部跟踪网络。 这项工作非常吸引我们,合成数据是Neuromation研究的重点,所以我们之后可能会更详细地考虑它。 同时,这里是“合成到实际”的GAN架构:

CVPR 2018摘要:第一部分

    行人迁移GAN

L. Wei 等人,Person Transfer GAN to Bridge Domain Gap for Person Re-Identification

CVPR 2018摘要:第一部分

人物重新识别(ReID)是在不同条件和不同情况下拍摄的不同照片上找到同一个人的问题。 这个问题自然而然地成为许多研究的主题,现在已经相对较好地解决了,但是领域差异问题仍然存在:不同的数据集与人物的图像具有非常不同的条件(照明,背景等),在一个数据集上训练的网络在转移到另一个数据集(以及例如现实世界的应用程序)时损失很大。 上图展示了不同的数据集。 为了解决这个问题,这项工作提出了一种GAN架构,能够将图像从一种“数据集样式”转移到另一种“数据集样式”,使用GAN来通过复杂的变换增强真实数据。 它的工作原理如下:

CVPR 2018摘要:第一部分

    生成模型的眼睛图像合成

K.Wang等人,用于眼睛图像合成和眼睛凝视估计的分层生成模型

CVPR 2018摘要:第一部分

伦斯勒理工学院的这项工作解决一个非常特殊的问题:生成人眼的图像。 这不仅对于生成图像中漂亮的眼睛重要,而且用生成的眼睛解决视线估计问题:人们在看什么? 这将为真正的科幻界面铺平道路......但这仍然是未来,目前甚至合成眼睛生成也是一个非常难的问题。 作者提出了一个复杂的眼形合成概率模型,并提出了一个GAN架构,根据这个模型生成眼睛 - 取得了巨大的成功。

CVPR 2018摘要:第一部分

    图像修复:填写空白

J. Yu等人,Generative Image Inpainting with Contextual Attention

CVPR 2018摘要:第一部分

Adobe Research和伊利诺伊大学厄本那 - 香槟分校的这项工作试图解决填补图像空白这个极具挑战性的问题(见上面的例子)。 通常,修复图像需要了解潜在场景:在上图中的右上角,你已经知道脸部是什么样的,以及我们根据看到的头发和颈部预测脸可能是什么样的。 在这项工作中,作者提出了一种基于GAN的方法,可以利用周围图像的特征来改善生成。 该结构由两部分组成,首先生成粗略结果,然后使用另一个网络对其进行细化。 结果非常不错:

CVPR 2018摘要:第一部分

CVPR 2018摘要:第一部分

今天就是这样。 这只是第一部分,我们将在下一期继续进行CVPR 2018回顾,再见。 雷锋网雷锋网雷锋网 (公众号:雷锋网)

Sergey Nikolenko

Chief Research Officer, Neuromation

Aleksey Artamonov

Senior Researcher, Neuromation

想要继续查看该篇文章相关链接和参考文献?

长按链接点击打开或点击【 CVPR 2018摘要:第一部分 】:

http://ai.yanxishe.com/page/TextTranslation/1193

AI研习社每日更新精彩内容,观看更多精彩内容:

使用 SKIL 和 YOLO 构建产品级目标检测系统

如何极大效率地提高你训练模型的速度?

良心推荐:一份 20 周学习计算机科学的经验贴(附资源)

数据科学家应当了解的五个统计基本概念:统计特征、概率分布、降维、过采样/欠采样、贝叶斯统计


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

深入理解SPARK

深入理解SPARK

耿嘉安 / 机械工业出版社 / 2016-1-1 / 99

《深入理解SPARK:核心思想与源码分析》结合大量图和示例,对Spark的架构、部署模式和工作模块的设计理念、实现源码与使用技巧进行了深入的剖析与解读。 《深入理解SPARK:核心思想与源码分析》一书对Spark1.2.0版本的源代码进行了全面而深入的分析,旨在为Spark的优化、定制和扩展提供原理性的指导。阿里巴巴集团专家鼎力推荐、阿里巴巴资深Java开发和大数据专家撰写。 本书分为......一起来看看 《深入理解SPARK》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

html转js在线工具
html转js在线工具

html转js在线工具