AU R-CNN：利用专家先验知识进行表情运动单元检测的R-CNN模型

栏目: IT技术 · 发布时间: 4年前

内容简介：©PaperWeekly 原创 · 作者｜Chen Ma学校｜清华大学

©PaperWeekly 原创 · 作者｜Chen Ma

学校｜清华大学

研究方向｜人脸识别和物体检测

这篇论文率先利用先验知识和物体检测技术做 Action Unit 人脸表情识别，在 BP4D 和 DISFA 两个数据库达到了 SOTA 的实验结果：BP4D 数据库的 F1 score 63%。

AU R-CNN：利用专家先验知识进行表情运动单元检测的R-CNN模型

论文标题： AU R-CNN: Encoding Expert Prior Knowledge into R-CNN for action unit detection

论文链接： https://arxiv.org/abs/1812.05788

代码链接： https://github.com/sharpstill/AU_R-CNN

AU R-CNN：利用专家先验知识进行表情运动单元检测的R-CNN模型

介绍

FACS (Facial Action Coding System) 是人脸国际标准组织定义的 44 种人脸运动单元（AU），这些运动单元可以组合表示人脸表情所有可能的表情（包含皱眉，抿嘴等），AU 是组成人脸表情的基石。

本论文中所谓的人脸 AU 检测的任务是指：识别一段视频中每一帧图像的人脸上出现哪些 AU。因为 AU 只是面部肌肉的细微运动，而且不同的面部肌肉运动幅度大小不同，所以 AU 检测任务具有挑战性。AU 检测在测谎仪、汽车驾驶辅助系统（探测是否驾驶员瞌睡）等有重要应用。

AU R-CNN：利用专家先验知识进行表情运动单元检测的R-CNN模型

▲ 图1. Action Unit 的例子

图 1 是 Action Unit的例子，关于 Action Unit 的表情到底定义了怎样的细微的面部表情。以下链接提供了动画演示，读者可以自行观看。

https://imotions.com/blog/facial-action-coding-system/

总结一下已有方法的缺点：

1. 已有的方法虽然提出了 AU center 的概念作为 AU 发生的重要区域，并被定义为人脸关键点的附近，这种定义粗糙而位置不精确。AU 发生在人脸肌肉运动的特定区域，但不一定是某个 landmark 附近。

2. 已有的研究使用 CNN 去识别整张脸的图像，而非局部区域的 AU。

3. 人脸 AU 识别是一个多 label 的分类问题，这种多 label 的约束可以被限制在更细的粒度上：人脸的局部区域上，从而达到更高的精度。

AU R-CNN：利用专家先验知识进行表情运动单元检测的R-CNN模型

方法

AU R-CNN 的方法框架如图 2 所示，AU 检测最困难之处在于人脸的五官大小不定，每个人长相不同，而且发出的表情的位置也不相同，这种难题之下如何检测呢？

本文站在前人的肩膀上，利用人脸关键点！人脸关键点提供了丰富的人脸位置信息，若能充分利用，则消除了五官的差异，更能细微精确地检测 AU。所以该框架首先将人脸划分成不同的区域，每个区域独立地进行检测，如图 2 所示：

AU R-CNN：利用专家先验知识进行表情运动单元检测的R-CNN模型

▲ 图2. AU R-CNN方法的整体概览框架

首先用 landmark 将人脸的 68 个关键点定位，再依照不同区域 ROI 独立检测，最后将每个 ROI 的检测汇总，便得到了全脸的检测结果！

AU R-CNN：利用专家先验知识进行表情运动单元检测的R-CNN模型

▲ 图3. 关键点和面部分割图

为了利用这些关键点的信息和 AU 的定义，本文引入了专家先验知识的概念，AU R-CNN 方法将 AU 与其相关的人脸区域的划分定义为专家知识，提出了 AU partition rule 的规则。该规则如表 1 所示：

AU R-CNN：利用专家先验知识进行表情运动单元检测的R-CNN模型

▲ 表1. AU partition rule（也即专家先验知识）

AU partition rule 将不同的 AU 分组，同一个位置区域发生的 AU 被分为一组，比如都是眼睛部位的 AU，所以诞生了 AU group 的概念。（表 1 左），由此全脸被划分成九个区域，每个区域是一组 ROI 表示，最后本文使用该 ROI 的最小外包矩形来表示该 AU group 区域，如图 4 所示。

AU R-CNN：利用专家先验知识进行表情运动单元检测的R-CNN模型

图4. AU group和其外包矩形，之后这些矩形被送入R-CNN的检测头

另外一个难题在于即使同一个区域也可能发生多个 AU 的表情出现，因此本文使用了 sigmoid cross entropy 的损失函数来计算损失并反向传播优化网络参数：

AU R-CNN：利用专家先验知识进行表情运动单元检测的R-CNN模型

图5. AU R-CNN 整体网络结构图，左侧由先验知识截取出不同区域的 bounding box，右侧是检测头去分别检测，与此同时，ground-truth label 也被按照不同区域分割了，最后计算 sigmoid cross entropy 损失

AU R-CNN：利用专家先验知识进行表情运动单元检测的R-CNN模型

AU R-CNN扩展

AU R-CNN 可以被作为一个基础框架产生出来很多扩展和变种，这是由于视频的先后帧之间有时间顺序关系，所以可以使用 ConvLSTM 建模先后帧之间的关系。如下图所示，每个部位的小 box 被单独的时间轴建模，用一个独立的 ConvLSTM 去建模并学习。

AU R-CNN：利用专家先验知识进行表情运动单元检测的R-CNN模型

但是在具体实验中，作者发现这种利用上下帧的建模方法效果不是很好，甚至总体的平均 F1 score 不如单帧检测。作者在实验部分也分析了其中的原因。

另外除了 ConvLSTM 这种时空卷积，还可以使用双流法等其他方法进行扩展，总体如下表：

AU R-CNN：利用专家先验知识进行表情运动单元检测的R-CNN模型

实验

实验在 BP4D 和 DISFA 两个数据库上进行，该文的实验部分值得称道的一点是，作者采用了标准的 AU R-CNN，并在 ResNet-101 和 VGG-16、VGG-19 几个网络上进行测试：

实验结果如下，可以看到 AU R-CNN 结合 ResNet-101 的 backbone 取得最佳的实验结果：

AU R-CNN：利用专家先验知识进行表情运动单元检测的R-CNN模型

剥离实验中，主要探究这种局部检测到底比标准的 CNN 那种全脸检测效果好多少，所以在不同分辨率下与标准 CNN 也进行了比较：

AU R-CNN：利用专家先验知识进行表情运动单元检测的R-CNN模型

DISFA 数据库都是连续的表情视频，实验结果如下：

AU R-CNN：利用专家先验知识进行表情运动单元检测的R-CNN模型

最后，作者总结了不同的 AU R-CNN 扩展及其适用范围：

AU R-CNN：利用专家先验知识进行表情运动单元检测的R-CNN模型

总结

在本文中，作者研究了如何将先验知识融合进 R-CNN 这种物体检测框架，并使用 RoI pooling 层在每个位置分别检测，丰富的实验证明了该做法的有效性，也取得了 State-of-the-art 的实验结果。

AU R-CNN：利用专家先验知识进行表情运动单元检测的R-CNN模型

点击以下标题查看更多往期内容：

AU R-CNN：利用专家先验知识进行表情运动单元检测的R-CNN模型

# 投稿通道 #

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？ 答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是 最新论文解读 ，也可以是 学习心得 或 技术干货 。我们的目的只有一个，让知识真正流动起来。

:memo: 来稿标准：

• 稿件确系个人 原创作品 ，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

:mailbox_with_mail: 投稿邮箱：

• 投稿邮箱： hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

:mag:

现在，在 「知乎」 也能找到我们了

进入知乎首页搜索 「PaperWeekly」

点击 「关注」 订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击 「交流群」 ，小助手将把你带入 PaperWeekly 的交流群里。

AU R-CNN：利用专家先验知识进行表情运动单元检测的R-CNN模型

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

豆瓣，流行的秘密

黄修源 / 机械工业出版社 / 2009-9 / 29.00

380万人为何会齐聚豆瓣？ HIN1和SARS是如何传播扩散开的？贾君鹏何以快速窜红网络？通过创新扩散的理论的分析和说明，给出了所有这些问题的答案！这本书从豆瓣的流行现象说开来，应用了创新扩散等传播学道理来解释了豆瓣如何流行起来，同时作者还同时用创新扩散的理论解释了为何会出现世界变平的现象，长尾理论，SARS病毒的高速传播等。作者以前任豆瓣设计师的身份以自己亲......一起来看看《豆瓣，流行的秘密》这本书的介绍吧!

码农工具