内容简介:本文为 AI 研习社编译的技术博客,原标题 :
本文为 AI 研习社编译的技术博客,原标题 :
NeuroNuggets: CVPR 2018 in Review, Part I
作者 | Sergey Nikolenko、Aleksey Artamonov
翻译 | 老赵 校对 | 李晶
整理 | 菠萝妹
原文链接:
https://medium.com/neuromation-io-blog/neuronuggets-cvpr-2018-in-review-part-i-f22b8c223202
NeuroNuggets:CVPR 2018年回顾,第一部分
在Neuromation,我们一直在寻找有助于我们的研究的新的有趣想法。 还有什么比顶级会议更适合寻找它们的地方。 我们已经在CVPR(计算机视觉和模式识别)会议的研讨会DeepGlobe介绍了我们如何取得成功。 这次我们将仔细研究一下CVPR本身最有趣的论文。 这段时间,顶级会议是非常重要的事情,所以我们准备了一系列的推文。 我们介绍的论文没有特别的顺序,不仅选择优秀的论文,而且与我们在Neuromation所做的研究相关。 这一次,Aleksey Artamonov(你以前见过的人)准备了这份列表,我试图对其补充一些介绍。 在这个系列中,我们将非常简短,试图从每篇论文中提取最多一个有趣的点,所以在这种方式我们不能真正了解完整的工作,并强烈建议完整阅读论文。
GAN和计算机视觉
在第一部分中,我们专注于生成模型,即不仅可以区分猫狗,还可以生成新的猫和狗图像的机器学习模型。 对于计算机视觉,最成功的一类生成模型是生成性对抗网络(GAN),其鉴别器网络学习区分生成的对象和真实对象,生成器学习去欺骗鉴别器。 我们已经多次写过GAN(例如,这里和这里),所以让我们直接进入正题。
寻找户外的小脸
Y. Bai等人,用生成性对抗网络在户外寻找小小的面孔
在沙特和中国研究人员的合作中,作者使用GAN来检测和放大人群照片上的非常小的面孔。 即使仅检测小面孔也是一个有趣的问题,普通的人脸检测器(例如,在我们之前的帖子中出现)通常无法解决该问题。 在这里,作者提出了一个端到端的流水线来提取面部,然后应用生成模型将其提升到4倍(一个称为超分辨率的过程)。 以下是论文中的流水线概览:
PairedCycleGAN化妆
H. Chang等人,PairedCycleGAN:用于和去除化妆的不对称样式转移
条件GAN已经广泛用于图像处理; 我们已经提到过超分辨率,GAN也成功应用于风格转换。 使用GAN,可以学习与特定图像元素相对应的显着特征 - 然后更改它们。 在这项工作中,来自普林斯顿、伯克利和Adobe的研究人员提出了一个修饰照片的框架。 这项工作的一个有趣的部分是作者为不同的脸部组成部分(眼睛,嘴唇,皮肤)训练单独的生成器并分别应用它们,用不同的网络提取脸部组成部分:
GANerated Hands
F. Mueller等人,GANerated Hands for Mon-time RGB for Real-Time 3D Hand Tracking
我们已经写过关于姿势估计的文章。 姿势估计的一个非常重要的子集(通常需要单独的模型)是手部跟踪。 通过挥动双手来操纵计算机的科幻主题尚未完全实现,仍然需要专门的硬件,如Kinect。 像往常一样,主要问题之一是数据:在哪里可以找到3D标记的真实视频流?在这项工作中,作者提出了一种条件GAN架构,能够将合成的3D模型转换为图像 然后用于训练手部跟踪网络。 这项工作非常吸引我们,合成数据是Neuromation研究的重点,所以我们之后可能会更详细地考虑它。 同时,这里是“合成到实际”的GAN架构:
行人迁移GAN
L. Wei 等人,Person Transfer GAN to Bridge Domain Gap for Person Re-Identification
人物重新识别(ReID)是在不同条件和不同情况下拍摄的不同照片上找到同一个人的问题。 这个问题自然而然地成为许多研究的主题,现在已经相对较好地解决了,但是领域差异问题仍然存在:不同的数据集与人物的图像具有非常不同的条件(照明,背景等),在一个数据集上训练的网络在转移到另一个数据集(以及例如现实世界的应用程序)时损失很大。 上图展示了不同的数据集。 为了解决这个问题,这项工作提出了一种GAN架构,能够将图像从一种“数据集样式”转移到另一种“数据集样式”,使用GAN来通过复杂的变换增强真实数据。 它的工作原理如下:
生成模型的眼睛图像合成
K.Wang等人,用于眼睛图像合成和眼睛凝视估计的分层生成模型
伦斯勒理工学院的这项工作解决一个非常特殊的问题:生成人眼的图像。 这不仅对于生成图像中漂亮的眼睛重要,而且用生成的眼睛解决视线估计问题:人们在看什么? 这将为真正的科幻界面铺平道路......但这仍然是未来,目前甚至合成眼睛生成也是一个非常难的问题。 作者提出了一个复杂的眼形合成概率模型,并提出了一个GAN架构,根据这个模型生成眼睛 - 取得了巨大的成功。
图像修复:填写空白
J. Yu等人,Generative Image Inpainting with Contextual Attention
Adobe Research和伊利诺伊大学厄本那 - 香槟分校的这项工作试图解决填补图像空白这个极具挑战性的问题(见上面的例子)。 通常,修复图像需要了解潜在场景:在上图中的右上角,你已经知道脸部是什么样的,以及我们根据看到的头发和颈部预测脸可能是什么样的。 在这项工作中,作者提出了一种基于GAN的方法,可以利用周围图像的特征来改善生成。 该结构由两部分组成,首先生成粗略结果,然后使用另一个网络对其进行细化。 结果非常不错:
今天就是这样。 这只是第一部分,我们将在下一期继续进行CVPR 2018回顾,再见。 雷锋网雷锋网雷锋网 (公众号:雷锋网)
Sergey Nikolenko
Chief Research Officer, Neuromation
Aleksey Artamonov
Senior Researcher, Neuromation
想要继续查看该篇文章相关链接和参考文献?
长按链接点击打开或点击【 CVPR 2018摘要:第一部分 】:
http://ai.yanxishe.com/page/TextTranslation/1193
AI研习社每日更新精彩内容,观看更多精彩内容:
使用 SKIL 和 YOLO 构建产品级目标检测系统
如何极大效率地提高你训练模型的速度?
良心推荐:一份 20 周学习计算机科学的经验贴(附资源)
数据科学家应当了解的五个统计基本概念:统计特征、概率分布、降维、过采样/欠采样、贝叶斯统计
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Impractical Python Projects
Lee Vaughan / No Starch Press / 2018-11 / USD 29.95
Impractical Python Projects picks up where the complete beginner books leave off, expanding on existing concepts and introducing new tools that you’ll use every day. And to keep things interesting, ea......一起来看看 《Impractical Python Projects》 这本书的介绍吧!