CVPR2019|基于场景图的可解释显示视觉推理

计算机视觉三大顶会之一CVPR201正在美国洛杉矶举办，此前接收结果已经公布，一共有 1300篇 论文被接收，接收率为 25.2% 。

今天分享给大家的是其中一篇被接收的论文《Explainable and Explicit Visual Reasoning over Scene Graphs》。

论文链接： https://arxiv.org/pdf/1812.01855.pdf

研究背景

视觉问答（Visual Question Answering）是近年来很受关注的一个跨模态任务，它的输入是一张图片和一个与图片有关的自然语言问题（如“桌上放着什么东西”），目标是让模型自动回答该问题。

视觉推理（Visual Reasoning）与视觉问答的形式类似，但输入的问题更难，且会涉及到物体之间的多跳关系（如“桌子旁边的椅子上的盘子是什么颜色”），这就要求模型具有推理能力。视觉推理任务最早由李飞飞等人在2017 年提出，他们提出的 CLEVR [1]数据集是目前使用最多的。

神经模块网络（Neural Module Networks，NMN）[2]是解决视觉推理任务的一类有效方法。

它定义了很多小的神经模块，每个模块负责特定的功能（如定位物体，转移注意力等），然后将输入的问题解析为模块的组合从而得到一个由模块组成的程序，执行程序即可得到问题的答案。它充分利用了语言的可组合性，并且大大增加了模型的透明度。已有的 NMN 方法都是直接对图片本身的像素级特征进行操作，该论文认为人脑的推理过程是建立在符号、概念等基础上的，仅利用像素级信息很难进行精确的推理。另外已有的 NMN 方法需要仔细设计每个模块的内部实现细节，这是很需要技巧的，不容易扩展到新的领域。

论文方法

论文提出了基于场景图（Scene Graph）来实现 NMN进行视觉推理。

Scene Graph 是对图片进行解析后得到的结果，它的节点（node）对应图片中的物体，它的边（edge）对应物体之间的关系。作者认为物体检测和场景推理任务应该分离开来，推理任务直接建立在检测出来的物体上，而不是像以往的方法那样建立在像素级别上。基于 Scene Graph，作者设计了以下四种基本操作，作为元模块（Meta Modules）：

CVPR2019|基于场景图的可解释显示视觉推理

AttendNode 输出一个在所有节点上的注意力向量，用来找到特定的物体节点；AttendEdge 输出一个在所有边上的注意力矩阵，用来找到特定的关系；Transfer 用来将注意力从一个节点转移到其他节点上，转移的路径由边上的注意力权重决定；Logic 用来对注意力向量进行逻辑操作，即与或非。

只需要对这四种元模块进行组合，即可得到更加复杂的模块，以在 CLEVR 等数据集上使用，这大大简化了模块内部实现的设计。另外，所有的元模块都完全基于注意力机制，意味着在执行由模块组成的程序时，所有中间过程都可以进行可视化，这大大增强了模型的可解释性。

下面是论文方法的流程图。对于输入的图片和问题，使用外部解析器，将图片解析成 Scene Graph，将问题解析成模块组成的程序，然后在 Scene Graph 上执行程序，从而得到预测的答案。

CVPR2019|基于场景图的可解释显示视觉推理

实验结果

论文在三个数据集上做了实验，分别是 CLEVR、CLEVR-CoGenT 和 VQA2.0。其中CLEVR 和 CLEVR-CoGenT 是合成数据集，VQA2.0 是真实数据集。
下表给出了在 CLEVR 上的结果，其中 XNM-GT 表示使用的是标注好的 Scene Graph，XNM-Det 表示使用的是检测出来的 Scene Graph，可以看到当Scene Graph 完全正确时，论文方法可以达到100%的准确率。由于论文提出的模块设计非常简单，模型只需要非常小的参数量，只是其他模型的几十分之一甚至几百分之一。

CVPR2019|基于场景图的可解释显示视觉推理

下表给出了在 CLEVR-CoGenT 上的结果，该数据集有两种设定，分别是 Condition A 和 Condition B，训练集全部都是 Condition A，而测试集则既有 A 也有 B。可以看到当 Scene Graph 完全正确时，在两种条件下论文方法均可以达到100%的准确率。

在 VQA2.0 上的结果，论文提出方法的效果要远远好于使用像素级特征的 StackNMN，同时也表明了方法在真实数据集上同样适用。

AI Time是一群关注人工智能发展，并有思想情怀的青年人创办的圈子。AI Time旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索，加强思想碰撞，打造成为北京乃至全国人工智能知识分享的策源地和聚集地。

AI Time：论道自动机器学习与可解释机器学习

时间：6月19日15:00-17:00

地点：海淀区中关村东路搜狐大厦二楼1911（清华科技园）

本次活动我们邀请了四位大牛：美国伊利诺伊大学芝加哥分校(UIC)特聘教授Philip Yu（ACM/IEEE Fellow，原ACM TKDD主编）、美国密歇根大学Qiaozhu Mei教授（绝对的青年才俊，刚拿了WWW 最佳论文，之前还拿过ICML、WSDM最佳论文）、北京大学的王立威教授（无敌的青年才俊，ML理论方面难逢对手）、百度高级研究员李兴建。

赶快戳下方小程序进入AI Time报名通道！

学术头条

发掘科技创新的原动力

您的转发就是我们最大的动力

点击阅读原文访问AMiner官网

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Effective C++中文版

[美] Scott Meyers / 侯捷 / 华中科技大学出版社 / 2001-9 / 49.80元

Effective C++是世界顶级C++大师Scott Meyers的成名之作，初版于1991年。在国际上，这本书所引起的反响之大，波及整个计算机技术出版领域，余音至今未绝。几乎在所有C++书籍的推荐名单上，这部专著都会位于前三名。作者高超的技术把握力，独特的视角、诙谐轻松的写作风格、独具匠心的内容组织，都受到极大的推崇和仿效。书中的50条准则，每一条都扼要说明了一个可让你写出更好的C+......一起来看看《Effective C++中文版》这本书的介绍吧!

码农工具

CVPR2019|基于场景图的可解释显示视觉推理

Effective C++中文版

RGB转16进制工具

HTML 编码/解码

HSV CMYK 转换工具