Facebook实时人体姿态估计:Dense Pose及其应用展望

栏目: 编程工具 · 发布时间: 5年前

内容简介:Facebook 和 Inria France 的研究人员分别在 CVPR 2018 和 ECCV 2018 相继发表了两篇有关「人体姿态估计」(human pose estimation) 的文章 [1] [2],用于介绍他们提出的 Dense Pose 系统以及一个应用场景「密集姿态转移」(dense pose transfer)。本文将简要介绍(1)利用 Dense Pose 实现单张 2D 人体图像到 3D 表面模型的原理 ;(2)如何将 Dense Pose 系统应用在「姿态转移」(pose tr

Facebook 和 Inria France 的研究人员分别在 CVPR 2018 和 ECCV 2018 相继发表了两篇有关「人体姿态估计」(human pose estimation) 的文章 [1] [2],用于介绍他们提出的 Dense Pose 系统以及一个应用场景「密集姿态转移」(dense pose transfer)。

本文将简要介绍(1)利用 Dense Pose 实现单张 2D 人体图像到 3D 表面模型的原理 ;(2)如何将 Dense Pose 系统应用在「姿态转移」(pose transfer)这一问题上;(3)粗略展望 Dense Pose 的一些潜在应用。

Dense Pose 的更多信息以及视频 demos:

1. 什么是密集姿态估计(dense pose estimation)?

密集姿态估计 (dense pose estimation) 将单张 2D 图片中所有描述人体的像素(human pixels),映射到一个 3D 的人体表面模型。如图 1 所示,Facebook 发布了一个名为 DensePose COCO 的大型数据集,包含了预先手工标注的 5 万张各种人类动作的图片。

Facebook实时人体姿态估计:Dense Pose及其应用展望

图 1:密集姿态估计的目标是将 2D 图片中描述人体的像素,映射到一个 3D 表面模型。左:输入的原始图像,以及利用 [1] 中提出的 Dense Pose-RCNN,获得人体各区域的 UV 坐标。UV 坐标又称纹理坐标 (texture coordinates), 用于控制 3D 表面的纹理映射; 中:DensePose COCO 数据集中的原始标注;右:人体表面的分割以及 UV 参数化示意图。

2. 如何进行密集姿态估计?

密集姿态估计的核心任务是,训练一个深度网络,用于预测 2D 图片像素 (image pixels)与 3D 表面模型点 (surface points) 之间的密集联系 (dense correspondences)。这个任务最近已经通过基于全连接卷积网络 [4] 的 Dense Regression (DenseReg) 系统 [3] 得到了解决。而 Dense Pose-RCNN 系统 [1],正是结合了 DenseReg 系统以及 Mask-RCNN 架构 [5]。

图 2 展示了 Dense Pose-RCNN 的级连 (cascade) 架构:这是一个全卷积网络 (fully-convolutional network),并连接着 ROIAlign 池化层 (ROIAlign pooling),用于处理两个核心任务,分别是:(1)分类。判断图片的某一像素来自于「背景」,还是「人体部位」;(2)回归。预测该像素在「人体部位」的具体坐标。

Facebook实时人体姿态估计:Dense Pose及其应用展望

图 2:Dense Pose-RCNN 的架构。

图 2 中的 ResNet50 FPN (feature pyramid networks) 将输出 feature map,然后通过 ROIAlign 模块对每一个 ROI 生成固定尺寸的 feature map。图 3 展示了 ROIAlign 模块的「跨级连」(cross-cascading) 结构,这种结构利用两个辅助任务 (keypoint estimation & mask) 提供的信息,帮助提高 Dense Pose 系统的姿态估计效果。作为 Dense Pose-RCNN 基础之一的 Mask-RCNN [5] 结构,正是借助两个相关任务(即 keypoint estimation 和 instance segmentation)提供的信息,用于提高分割效果。

Facebook实时人体姿态估计:Dense Pose及其应用展望

图 3:Dense Pose-RCNN[1] 中的 ROIAlign 模块采用了「跨级连」(cross-cascading) 架构。

3. 主干 (backbone) 网络对于 Dense Pose 系统的影响?

研究人员在 [1] 中对于两种主干网络,ResNet-50 和 ResNet-101,对于 Dense Pose 任务的表现进行了比较。如表 1 所示,在 AP 和 AR 这两个评估指标上,ResNet-101 的表现稍优于 ResNet-50,但由于大型网络较为「笨重」,并不适用于移动应用。因此,[1] 中的其余实验均使用了 ResNet-50 作为主干网络。

表 1: 当 Dense Pose-RCNN 使用两个不同的主干网络时,在 COCO Minval 数据集上取得的实验结果。[1]

Facebook实时人体姿态估计:Dense Pose及其应用展望

4. 从 Dense Pose 到 Dense Pose Transfer

除了介绍 Dense Pose 系统的架构和工作流程,研究人员还在 [1] 中展示了一个 Dense Pose 的应用,「纹理转移」(texture transfer)。如图 4 所示,纹理转移这一任务的目标是,将图像中所有人的身体表面纹理,转换为预先提供的目标纹理。

Facebook实时人体姿态估计:Dense Pose及其应用展望

图 4:Dense Pose 纹理转换 (texture transfer) 的实验结果。该任务的目标是,将输入的视频图像中所有人的身体表面纹理,转换成目标纹理。图中第 1 行为目标纹理 1 和纹理 2。第 2、3 行从左至右依次为,输入图像,转换为纹理 1 的图像,以及转换为纹理 2 的图像。

在 ECCV 2018 上,论文 [1] 的三名作者发表了 Dense Pose 的一个后续应用,即「密集姿态转移」(dense pose transfer,以下简称为 DPT) [2]。与纹理转换不同的是,DPT 这一任务的目标是,根据输入的 2D 人体图像和目标姿态 (target dense pose),将输入图像中的人体姿态转换成目标姿态,并且不改变人体表面纹理。

如图 5 所示,DPT 系统以 Dense Pose[1] 为基础,并且由两个互补的模块组成,分别是(1)推测模块 (predictive module),用于根据输入图像,预测出具有目标姿态的人体图像;(2)变形模块 (warping module),负责从输入图像中提取纹理,并「补全」(inpainting) 具有目标姿态的人体表面纹理。此外,系统中还有一个合成模块 (blending module),通过端对端、可训练的单一框架,将推测和变形模块的输出进行合成,并产生最终的图像。

Facebook实时人体姿态估计:Dense Pose及其应用展望

图 5:密集姿态转移(DPT) 系统的流程图。该系统包括推测模块、变形模块,以及合成模块。

图 6 展示了在 DeepFashion 数据集 [6] 上取得的 12 组姿态估计结果。每组姿态结果从左至右依次为:输入图像、正确的目标图像、Deformable GANs (DSC) [7] 获得的转移结果,以及 DPT 系统 [2] 获得的转移结果。由于 DSC 是目前解决「多视角图像合成」(multi-view synthesis) 这一问题中效果最佳的方法,所以 [2] 的作者将这一方法与 DPT 系统进行比较。

从图 6 可以粗略观察到 DPT 系统在纹理转移上还不是特别完善。例如,一些女士上衣的花纹没有被保留,并成功转移到输出图像中;此外,人物的面部特征也在转移中出现一些偏差:身着黄色上衣的男士图像(见图 6 右侧第 3 行),经过姿态转后,人物面部更为「女性化」。论文 [2] 的作者指出,要取得更好的姿态转换结果,可能还需要预先获得一些额外的信息,比如面部特征、性别以及肤色。

Facebook实时人体姿态估计:Dense Pose及其应用展望

图 6:密集姿态转换(dense pose transfer)的实验结果。左右两组结果分别包含了输入图像、正确的目标图像、Deformable GANs (DSC) [7] 得到的转移结果,以及 DPT 系统 [2] 得到的转移结果。

5. Dense Pose 的应用展望

Dense Pose 为人体姿态估计提供了一种新的解决方法,研究人员也在 demos 中展示了 Dense Pose 能够实时完成纹理转移等任务。尽管 Dense Pose 还有许多需要完善的地方,它的应用前景还是相当乐观的。笔者认为 Dense Pose 未来可以在以下两个方面进行应用:

一个应用方向是,利用单一图片进行服装的虚拟试穿。顾客可以上传一张自己的全身正面照,并从系统中选择一套需要试穿的服装,以及一个目标姿态。Dense Pose 系统则可以根据顾客提供的这些信息,产生出一张合成的图片,显示顾客「试穿」服装后的姿态。

另一个应用方向则是,远程视频诊断背部痛疾。就诊者按照医生的要求,穿戴一套专用的传感器,并依次完成一系列动作(如上身向前倾若干度、蹲下、站直向左扭头等等)。就诊者的这一系列动作将由摄像头拍摄,并生成视频实时传输给医生。一个设想是,医生可以借助 Dense Pose 系统,根据就诊者的动作视频图像,生成就诊者的 3D 人体模型,并与背部无疾患的人体模型进行对比,从而初步判断患者是否患有背部疾病。

参考文献:

[1] Alp Güler, Rıza, Natalia Neverova, and Iasonas Kokkinos. "Densepose: Dense human pose estimation in the wild." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.

[2] Neverova, Natalia, Riza Alp Guler, and Iasonas Kokkinos. "Dense pose transfer." Proceedings of the European Conference on Computer Vision (ECCV). 2018.

[3] Alp Guler, Riza, et al. "Densereg: Fully convolutional dense shape regression in-the-wild." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.

[4] Chen, Liang-Chieh, et al. "Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs." IEEE transactions on pattern analysis and machine intelligence 40.4 (2017): 834-848.

[5] He, Kaiming, et al. "Mask r-cnn." Computer Vision (ICCV), 2017 IEEE International Conference on. IEEE, 2017.

[6] Liu, Ziwei, et al. "Deepfashion: Powering robust clothes recognition and retrieval with rich annotations." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

[7] Siarohin, Aliaksandr, et al. "Deformable gans for pose-based human image generation." CVPR 2018-Computer Vision and Pattern Recognition. 2018.

技术分析师个人简介

Olli Huang 是澳门科技大学的一名博士研究生,她的研究方向是大规模图像检索 (large-scale image retrieval) 和图像的地理位置估计 (visual-based image geolocalization)。Olli 于 2017 年加入了机器之心的全球团队,并以自由撰稿人的身份,发表了多篇计算机视觉应用的英文技术评论。

Olli 的机器之心主页: https://www.jiqizhixin.com/users/84204384-374e-4de0-bfc5-79eee677a8ec

Olli 的 LinkedIn 主页: https://www.linkedin.com/in/ollihuang


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

触动人心

触动人心

Josh Clark / 包季真 / 电子工业出版社 / 2011-10 / 79.00元

本书是《Tapworthy: Designing Great iPhone Apps》的中文翻译版。 可能你设计网站产品或软件界面早已得心应手,可是遇到了iPhone,却感觉无从下手。 无论你是产品经理、设计师、创业者还是程序员,本书都能告诉你如何从iPhone的角度来思考应用设计。本书能帮助你理解如何设计iPhone应用,要创建一款触动人心的应用,需要如何去综合思考设计、心理、文化、......一起来看看 《触动人心》 这本书的介绍吧!

在线进制转换器
在线进制转换器

各进制数互转换器

SHA 加密
SHA 加密

SHA 加密工具

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试