漫画人脸检测 | 全局和局部信息融合的深度神经网络（文末源码）

栏目: 数据库 · 发布时间: 5年前

内容简介：人脸检测&识别依然是CV领域炙热的研究课题，不仅仅应用在各种刷脸产品，现在很多多媒体都在利用这个技术，与艺术融合，擦除不一样的火花，今天我们就来和大家分享，漫画中的人脸检测，与之前漫画人物自动填色相似，都是比较新颖，相信之后，会有更多的人脸技术应用到各个领域。【

人脸检测&识别依然是CV领域炙热的研究课题，不仅仅应用在各种刷脸产品，现在很多多媒体都在利用这个技术，与艺术融合，擦除不一样的火花，今天我们就来和大家分享，漫画中的人脸检测，与之前漫画人物自动填色相似，都是比较新颖，相信之后，会有更多的人脸技术应用到各个领域。

【导读】随着越来越多的日本漫画数字化书籍的问世，人们迫切需要高效、有效地获取漫画。在漫画的各种元素中，人物脸在获取和检索中起着重要的作用。今天讲解的作者提出了一种基于深度神经网络的人脸检测方法，这是一个很有挑战性但相对较少探索的课题。给定一个漫画页面，首先根据选择性搜索方案找到候选区域，然后提出了三种卷积神经网络来检测不同形状的人脸。从整个目标区域和多个局部区域提取信息，并以早期融合或后期融合的方式集成多尺度信息。所提出的方法是基于大规模基准的评估。与目前最先进的人脸检测模块相比，该模块具有令人信服的性能。

漫画人脸检测 | 全局和局部信息融合的深度神经网络（文末源码）

背景

Manga（日本漫画）是世界上最大的图书销售之一。虽然这本书市场暴跌，在日本，编译的Manga书籍的市场一直在创造创纪录的高销量，2014年达到24亿美元左右。随着越来越多的漫画书籍需要对Manga进行数字化、有效的访问和检索。

在各种不同的索引和检索方法中，认为角色的人脸是最重要的项目之一访问Manga。人脸检测是许多计算机视觉和多媒体应用的基本步骤。

对自然图像进行了广泛的研究，但是很少已经为Manga提出了研究。在自然图像和Manga中的人脸之间存在至少 三个差异 。

首先,在大多数Manga中，只有黑白和有时灰色信息是可用的，与自然图像中的颜色信息不同。第二，在不同的漫画中脸部有极端的变化。如下图(a)和图(b)显示两个正常正面，而图(c)和图(d)显示出显著不同的视觉外观，尤其是眼睛上的视觉外观。第三，Manga面部并不完全拥有人面部的属性。空间布局、视觉外观Manga人脸的表达可能不是物理上合理的(图(e)和图(f))。

漫画人脸检测 | 全局和局部信息融合的深度神经网络（文末源码）

进一步展示Manga人脸与人脸之间的差异及必要性提出了一种面向Manga人脸的专有方法，采用MTCNN提取特征分别来自两种类型的人脸并在下图中展示出特征分布。它被认为是用于面部检测和面部对准的特征是相关的。

漫画人脸检测 | 全局和局部信息融合的深度神经网络（文末源码）

因此，MTCN正在提出级联的卷积网络，以共同实现这两个任务。这网络由三个阶段组成。第一阶段是一个候选网络(P-Net)，其估计可能包含(人类)人脸的边界框。第二阶段是细化网络（R-Net），拒绝大量虚假候选人。第三级是输出网络(O-Net)识别具有更多监督和输出人脸关键点“位置”的面部区域。分别将P-Net、R-Net和O-Net的最后一层的输出作为显示面部特征的特征。

上图(b)和上图(c)显示了从CelebA分离集中随机选取的100个人脸的平均特征分布，分别由P-net和R-net提取。上图(e)和图(f)显示了分别由P-net和R-net提取的Manga 109数据集中100个随机选取的漫画面的平均分布情况。对比上图(b)和图(e)，我们发现，从P-net的角度来看，人类脸和漫画脸的平均特征分布是非常不同的。从R-net的角度，图(c)和图(f)也可以看到类似的特性。

事实上，O-Net提取的特征也显示出类似的趋势。面对上述挑战，漫画人脸检测与真实人脸检测有着显著的不同。虽然实际人脸检测已经进行了几十年的研究，并提出了许多高性能的检测方法，但在漫画中直接应用这些方法并不能很好地实现人脸检测。

漫画人脸检测 | 全局和局部信息融合的深度神经网络（文末源码）

上图分别显示了OpenCV、Microsoft Azure人脸检测API和新技术的检测结果。如图(1)所示，OpenCV方法(用漫画数据进一步训练)错误地检测到许多不是漫画脸的区域。图(2 )显示，最先进的人脸检测API在精度上要好得多，但许多漫画人脸无法被成功检测。针对现有人脸检测系统不适用于漫画人脸的现状，提出了一种专门针对漫画人脸的人脸检测方法。

新技术方法

处理Manga面部检测问题的一个观点是将其视为空间对象检测问题。根据轮廓、形状、纹理的各种视觉特征，以及颜色对比，提出了大量的方法来进行对象匹配或对象检测。由于开发了深度神经网络，最近非常令人印象深刻，已针对自然图像/视频提出了物体检测和识别模型。然而，这些模型是基于大量自然图像构建的。使用的深层网络在Manga人脸检测中的应用需要专门设计的系统集成。

漫画人脸检测 | 全局和局部信息融合的深度神经网络（文末源码）

在此新技术的工作中，集成了在深度学习之前设计的区域候选方法。采用专门设计的深层网络进行Manga人脸检测，上图显示所提出的方法的概述。

给定Manga页面，首先采用选择性搜索方案检测可能包含对象的区域。然后，通过以下步骤对每个区域进行检查：

候选的深层神经网络命名为Manga FaceNet(MFN)，以了解该区域是否是一个Manga的脸。为了准确地将区域识别为面部，最好在分类器中联合地考虑 局部特征 和 全局特征 。
有了这个想法，于是设计了Manga FaceNet的三种版本，分别对应于基线MFN， MFN 早期融和 MFN 后期融合。
在早期融和版本中，连接全局特征有四个局部特征进行分类。
在后期融和版本中，采用全局特征进行预处理，然后采用四个局部特征来细化结果。

数据准备

最近，深度学习的力量已经在许多领域得到了证明。不仅用于自然图像的图像分类或目标检测，而且用于分析草图或线条图。因此，作者建议构建一个名为Manga FaceNet的深层神经网络来完成这项任务。

在对网络进行训练之前，从Manga 109数据集中随机选取24个漫画标题，并从每个标题中选取前60个漫画页面作为评价数据集。对于每一页，手动定义每个漫画人脸的边框。

整体而言，有3760张正面脸和1110张侧面脸。对于深度神经网络的训练，这种有限的训练数据是不够的。因此，提出了以下 数据增强策略 。

为了增加训练人脸的数量，用两种方法增加了数据集。

首先，对于每个漫画页面，使用选择性搜索方案来查找对象区域。对于每个目标区域O，计算了它与其空间上最近的真实边界框B之间的重叠比：

漫画人脸检测 | 全局和局部信息融合的深度神经网络（文末源码）

重叠比大于0.7的区域被视为正例子，而重叠比小于0.3的区域被视为负例子。下图通过显示一些示例说明了这种增强。左列的图像是四个漫画面的真实图，中间列的图像是对应的正样本的一部分(即重叠比大于0.7)，右边列的图像是阴性样本的一部分(即重叠比小于0.3)。

漫画人脸检测 | 全局和局部信息融合的深度神经网络（文末源码）

第二种增强数据的方法是 水平翻转 由第一方法选择的阳性样本。该方法广泛应用于深度学习的数据增强中，能够增加数据的变化。

总的来说，这两种方法增加了数据的变化，并且在很大程度上增加了7174个正面人脸和1596个侧面人脸的训练量。

算法框架详解

漫画人脸检测 | 全局和局部信息融合的深度神经网络（文末源码）

Manga FaceNet框架

对于Manga FaceNet的底层分支，试图进一步考虑给定训练区域对其相应的地面真实度的空间位移，以便更精确地评价一个区域作为漫画人脸的优点。选择性搜索方案可以检测部分或过度覆盖人脸区域的对象区域。

下图显示了检测到的区域与相应的漫画人脸之间关系的三个示例。

漫画人脸检测 | 全局和局部信息融合的深度神经网络（文末源码）

使用左上角的坐标以及宽度和高度来表示区域。在最左边的图中，检测到的区域(虚线)的左上角必须向右向下移动，区域的宽度和高度应该更小。在中间图中，检测区域的左上角必须向右上移动，其宽度应增加，高度应减小。在最右边的图中，检测到的区域的左上角必须向左移动，并且它的高度应该增加。

融合Manga FaceNet

Anwer等人（ R. AnwerF. S. Khan, J. van de Weijer, and J. Laaksonen, “Tex-nets: Binary patternns encoded convolutional neural networks for texture recognition,” in Proceedings of ACM International Conference on Multimedia Retrieval, 2017, pp. 125–132. ）研究了两种深层结构，即早期和晚期融合，以结合纹理和颜色信息

在新工作中，设计了两种版本的融合Manga FaceNet，将信息与全局脸部和局部脸部部分结合起来。

在 早期融合中 ，合并来自多个区域的信息以进行分类；在 晚期融合中 ，根据全局人脸模型和四个局部结果分别获得分类结果人脸模型。下图早期融合：

漫画人脸检测 | 全局和局部信息融合的深度神经网络（文末源码）

上图展示了后期融合的概念。同样，通过选择性搜索检测到的候选区域被划分为四个局部区域。全局区域被输入到VGG-16模型，然后是一个包含256个节点的全连接层，以提取特征并进行分类。

第一种cnn模型分类为正面或侧视面的区域，通过检查其对应的局部区域而得到进一步的细化。四个局部区域被输入到四个cnn模型，然后是一个包含256个节点的全连接层，以提取特征并进行第二轮分类。如果两个以上的局部区域也被归类为正面或侧视面，则原始的全局区域最终被确认为漫画人脸。

实验结果

不同方法的比较结果

漫画人脸检测 | 全局和局部信息融合的深度神经网络（文末源码）

不同微调策略给出的性能变化

漫画人脸检测 | 全局和局部信息融合的深度神经网络（文末源码）

(a) OpenCV trained with manga; (b) Microsoft Azure face API; (c) Manga FaceNet; (d) Late fMFN.

如果想加入我们“ 计算机视觉战队 ”，请扫二维码加入学习群。 计算机视觉战队主要涉及 机器学习、深度学习 等领域，由来自于各校的硕博研究生组成的团队，主要致力于 人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等 研究方向。

漫画人脸检测 | 全局和局部信息融合的深度神经网络（文末源码）

我们开创一段时间的“ 计算机视觉协会 ”知识星球，也得到很多同学的认可，我们定时会推送实践型内容与大家分享，在星球里的同学可以随时提问，随时提需求，我们都会及时给予回复及给出对应的答复。

漫画人脸检测 | 全局和局部信息融合的深度神经网络（文末源码）

微信学习讨论群，我们会第一时间在该些群里预告！

以上所述就是小编给大家介绍的《漫画人脸检测 | 全局和局部信息融合的深度神经网络（文末源码）》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Web Data Mining

Bing Liu / Springer / 2011-6-26 / CAD 61.50

Web mining aims to discover useful information and knowledge from Web hyperlinks, page contents, and usage data. Although Web mining uses many conventional data mining techniques, it is not purely an ......一起来看看《Web Data Mining》这本书的介绍吧!

码农工具