漫画人脸检测 | 全局和局部信息融合的深度神经网络(文末源码)

栏目: 数据库 · 发布时间: 5年前

内容简介:人脸检测&识别依然是CV领域炙热的研究课题,不仅仅应用在各种刷脸产品,现在很多多媒体都在利用这个技术,与艺术融合,擦除不一样的火花,今天我们就来和大家分享,漫画中的人脸检测,与之前漫画人物自动填色相似,都是比较新颖,相信之后,会有更多的人脸技术应用到各个领域。【

人脸检测&识别依然是CV领域炙热的研究课题,不仅仅应用在各种刷脸产品,现在很多多媒体都在利用这个技术,与艺术融合,擦除不一样的火花,今天我们就来和大家分享,漫画中的人脸检测,与之前漫画人物自动填色相似,都是比较新颖,相信之后,会有更多的人脸技术应用到各个领域。

导读 】随着越来越多的日本漫画数字化书籍的问世,人们迫切需要高效、有效地获取漫画。在漫画的各种元素中,人物脸在获取和检索中起着重要的作用。今天讲解的作者提出了一种基于深度神经网络的人脸检测方法,这是一个很有挑战性但相对较少探索的课题。给定一个漫画页面,首先根据选择性搜索方案找到候选区域,然后提出了三种卷积神经网络来检测不同形状的人脸。从整个目标区域和多个局部区域提取信息,并以早期融合或后期融合的方式集成多尺度信息。所提出的方法是基于大规模基准的评估。与目前最先进的人脸检测模块相比,该模块具有令人信服的性能。

漫画人脸检测 | 全局和局部信息融合的深度神经网络(文末源码)

背景

Manga(日本漫画)是世界上最大的图书销售之一。虽然这本书市场暴跌,在日本,编译的Manga书籍的市场一直在创造创纪录的高销量,2014年达到24亿美元左右。随着越来越多的漫画书籍需要对Manga进行数字化、有效的访问和检索。

在各种不同的索引和检索方法中,认为角色的人脸是最重要的项目之一访问Manga。人脸检测是许多计算机视觉和多媒体应用的基本步骤。

对自然图像进行了广泛的研究,但是很少已经为Manga提出了研究。在自然图像和Manga中的人脸之间存在至少 三个差异

首先,在大多数Manga中,只有黑白和有时灰色信息是可用的,与自然图像中的颜色信息不同。第二, 在不同的漫画中 脸部有极端的变化。如下图(a)和图(b)显示两个正常正面,而图(c)和图(d)显示出显著不同的视觉外观,尤其是眼睛上的视觉外观。第三,Manga面部并不完全拥有人面部的属性。空间布局、视觉外观Manga人脸的表达可能不是物理上合理的(图(e)和图(f))。

漫画人脸检测 | 全局和局部信息融合的深度神经网络(文末源码)

进一步展示Manga人脸与人脸之间的差异及必要性提出了一种面向Manga人脸的专有方法,采用MTCNN提取特征分别来自两种类型的人脸并在下图中展示出特征分布。它被认为是用于面部检测和面部对准的特征是相关的。

漫画人脸检测 | 全局和局部信息融合的深度神经网络(文末源码)

因此,MTCN正在提出级联的卷积网络,以共同实现这两个任务。这网络由三个阶段组成。第一阶段是一个候选网络(P-Net),其估计可能包含(人类)人脸的边界框。第二阶段是细化网络(R-Net),拒绝大量虚假候选人。第三级是输出网络(O-Net)识别具有更多监督和输出人脸关键点“位置”的面部区域。分别将P-Net、R-Net和O-Net的最后一层的输出作为显示面部特征的特征。

上图(b)和上图(c)显示了从CelebA分离集中随机选取的100个人脸的平均特征分布,分别由P-net和R-net提取。上图(e)和图(f)显示了分别由P-net和R-net提取的Manga 109数据集中100个随机选取的漫画面的平均分布情况。对比上图(b)和图(e),我们发现,从P-net的角度来看,人类脸和漫画脸的平均特征分布是非常不同的。从R-net的角度,图(c)和图(f)也可以看到类似的特性。

事实上,O-Net提取的特征也显示出类似的趋势。面对上述挑战,漫画人脸检测与真实人脸检测有着显著的不同。虽然实际人脸检测已经进行了几十年的研究,并提出了许多高性能的检测方法,但在漫画中直接应用这些方法并不能很好地实现人脸检测。

漫画人脸检测 | 全局和局部信息融合的深度神经网络(文末源码)

上图分别显示了OpenCV、Microsoft Azure人脸检测API和新技术的检测结果。如图(1)所示,OpenCV方法(用漫画数据进一步训练)错误地检测到许多不是漫画脸的区域。图(2 )显示,最先进的人脸检测API在精度上要好得多,但许多漫画人脸无法被成功检测。针对现有人脸检测系统不适用于漫画人脸的现状,提出了一种专门针对漫画人脸的人脸检测方法。

新技术方法

处理Manga面部检测问题的一个观点是将其视为空间对象检测问题。根据轮廓、形状、纹理的各种视觉特征,以及颜色对比,提出了大量的方法来进行对象匹配或对象检测。由于开发了深度神经网络,最近非常令人印象深刻,已针对自然图像/视频提出了物体检测和识别模型。然而,这些模型是基于大量自然图像构建的。使用的深层网络在Manga人脸检测中的应用需要专门设计的系统集成。

漫画人脸检测 | 全局和局部信息融合的深度神经网络(文末源码)

在此新技术的工作中,集成了在深度学习之前设计的区域候选方法。采用专门设计的深层网络进行Manga人脸检测,上图显示所提出的方法的概述。

给定Manga页面,首先采用选择性搜索方案检测可能包含对象的区域。然后,通过以下步骤对每个区域进行检查:

  • 候选 的深层神经网络命名为Manga FaceNet(MFN),以了解该区域是否是一个Manga的脸。为了准确地将区域识别为面部,最好在分类器中联合地考虑 局部特征 全局特征

  • 有了这个想法,于是设计了Manga FaceNet的三种版本,分别对应于基线MFN, MFN 早期融和 MFN 后期融合。

  • 在早期 融和 版本中,连接全局特征有四个局部特征进行分类。

  • 在后期 融和 版本中,采用全局特征进行预处理,然后采用四个局部特征来细化结果。

数据准备

最近,深度学习的力量已经在许多领域得到了证明。不仅用于自然图像的图像分类或目标检测,而且用于分析草图或线条图。因此,作者建议构建一个名为Manga FaceNet的深层神经网络来完成这项任务。

在对网络进行训练之前,从Manga 109数据集中随机选取24个漫画标题,并从每个标题中选取前60个漫画页面作为评价数据集。对于每一页,手动定义每个漫画人脸的边框。

整体而言,有3760张正面脸和1110张侧面脸。对于深度神经网络的训练,这种有限的训练数据是不够的。因此,提出了以下 数据增强策略

为了增加训练人脸的数量,用两种方法增加了数据集。

首先,对于每个漫画页面,使用选择性搜索方案来查找对象区域。对于每个目标区域O,计算了它与其空间上最近的真实边界框B之间的重叠比:

漫画人脸检测 | 全局和局部信息融合的深度神经网络(文末源码)

重叠比大于0.7的区域被视为正例子,而重叠比小于0.3的区域被视为负例子。下图通过显示一些示例说明了这种增强。左列的图像是四个漫画面的真实图,中间列的图像是对应的正样本的一部分(即重叠比大于0.7),右边列的图像是阴性样本的一部分(即重叠比小于0.3)。

漫画人脸检测 | 全局和局部信息融合的深度神经网络(文末源码)

第二种增强数据的方法是 水平翻转 由第一方法选择的阳性样本。该方法广泛应用于深度学习的数据增强中,能够增加数据的变化。

总的来说,这两种方法增加了数据的变化,并且在很大程度上增加了7174个正面人脸和1596个侧面人脸的训练量。

算法框架详解

漫画人脸检测 | 全局和局部信息融合的深度神经网络(文末源码)

Manga FaceNet框架

对于Manga FaceNet的底层分支,试图进一步考虑给定训练区域对其相应的地面真实度的空间位移,以便更精确地评价一个区域作为漫画人脸的优点。选择性搜索方案可以检测部分或过度覆盖人脸区域的对象区域。

下图显示了检测到的区域与相应的漫画人脸之间关系的三个示例。

漫画人脸检测 | 全局和局部信息融合的深度神经网络(文末源码)

使用左上角的坐标以及宽度和高度来表示区域。在最左边的图中,检测到的区域(虚线)的左上角必须向右向下移动,区域的宽度和高度应该更小。在中间图中,检测区域的左上角必须向右上移动,其宽度应增加,高度应减小。在最右边的图中,检测到的区域的左上角必须向左移动,并且它的高度应该增加。

融合Manga FaceNet

Anwer等人( R. AnwerF. S. Khan, J. van de Weijer, and J. Laaksonen, “Tex-nets: Binary patternns encoded convolutional neural networks for texture recognition,” in Proceedings of ACM International Conference on Multimedia Retrieval, 2017, pp. 125–132. )研究了两种深层结构,即早期和晚期融合,以结合纹理和颜色信息

在新工作中,设计了两种版本的融合Manga FaceNet,将信息与全局脸部和局部脸部部分结合起来。

早期融合中 ,合并来自多个区域的信息以进行分类;在 晚期融合中 ,根据全局人脸模型和四个局部结果分别获得分类结果人脸模型。下图早期融合:

漫画人脸检测 | 全局和局部信息融合的深度神经网络(文末源码)

漫画人脸检测 | 全局和局部信息融合的深度神经网络(文末源码)

漫画人脸检测 | 全局和局部信息融合的深度神经网络(文末源码)

上图展示了后期融合的概念。同样,通过选择性搜索检测到的候选区域被划分为四个局部区域。全局区域被输入到VGG-16模型,然后是一个包含256个节点的全连接层,以提取特征并进行分类。

第一种cnn模型分类为正面或侧视面的区域,通过检查其对应的局部区域而得到进一步的细化。四个局部区域被输入到四个cnn模型,然后是一个包含256个节点的全连接层,以提取特征并进行第二轮分类。如果两个以上的局部区域也被归类为正面或侧视面,则原始的全局区域最终被确认为漫画人脸。

实验结果

不同方法的比较结果

漫画人脸检测 | 全局和局部信息融合的深度神经网络(文末源码)

不同微调策略给出的性能变化

漫画人脸检测 | 全局和局部信息融合的深度神经网络(文末源码) 漫画人脸检测 | 全局和局部信息融合的深度神经网络(文末源码)

(a) OpenCV trained with manga; (b) Microsoft Azure face API; (c) Manga FaceNet; (d) Late fMFN.

如果想加入我们“ 计算机视觉战队 ”,请扫二维码加入学习群。 计算机视觉战队 主要涉及 机器学习、深度学习 等领域,由来自于各校的硕博研究生组成的团队,主要致力于 人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等 研究方向。

漫画人脸检测 | 全局和局部信息融合的深度神经网络(文末源码)

我们开创一段时间的“ 计算机视觉协会 ”知识星球,也得到很多同学的认可,我们定时会推送实践型内容与大家分享,在星球里的同学可以随时提问,随时提需求,我们都会及时给予回复及给出对应的答复。

漫画人脸检测 | 全局和局部信息融合的深度神经网络(文末源码)

微信学习讨论群,我们会第一时间在该些群里预告!


以上所述就是小编给大家介绍的《漫画人脸检测 | 全局和局部信息融合的深度神经网络(文末源码)》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

数文明

数文明

涂子沛 / 中信出版集团 / 2018-9 / 88.00元

从量数、据数、普适记录、人脸识别、以图搜车,到雾计算、城市大脑、单粒度治理、无匿名社会、量子思维……作为中国研究大数据的权威专家,作者在《数文明》一书中,以大数据为核心元素,抽丝剥茧,深入地阐述了这个大数据时代的文明社会——一个全新的数文明时代。 将大数据与人类文明融合在一起,这本书提供给我们的不仅是一种全新的叙事结构,它还将突破你的认知边界和思维极限,给你提供一个应对这个世界的全新的认知方......一起来看看 《数文明》 这本书的介绍吧!

在线进制转换器
在线进制转换器

各进制数互转换器

随机密码生成器
随机密码生成器

多种字符组合密码

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换