DeepMind提出新型神经网络架构，用无监督方法从视频中提取关键点 | 论文

栏目: 数据库 · 发布时间: 5年前

内容简介：提取关键点此前被视为需要大量数据才能完成的工作，但DeepMind的一项最新研究可不这么认为。DeepMind的新模型也就是说，用无监督的方法和寥寥数据，就能提取出关键点，在没有奖励的情况下，还能进行有效操控。

铜灵发自凹非寺

量子位出品 | 公众号 QbitAI

提取关键点此前被视为需要大量数据才能完成的工作，但DeepMind的一项最新研究可不这么认为。

DeepMind的新模型 Transporter 从原始视频帧中学习以物体为中心的抽象表示，并能用简单的算法生成控制策略和探索程序。

也就是说，用无监督的方法和寥寥数据，就能提取出关键点，在没有奖励的情况下，还能进行有效操控。

效果如下：

软件工程师@AwokeKnowing表示，DeepMind最后还严谨地讨论了研究的局限性，但这项在无监督、没有硬工程特征（hard-engineered features）环境下的研究，确实是一项 开创性的研究 。

DeepMind提出新型神经网络架构，用无监督方法从视频中提取关键点 | 论文

新型Transporter架构

在论文Unsupervised Learning of Object Keypoints for Perception and Control中，研究人员提出了一种名为Transporter的新型神经网络架构，可跨各种常用的强化学习环境学习物体关键点的状态。

Transporter的架构如下：

DeepMind提出新型神经网络架构，用无监督方法从视频中提取关键点 | 论文

研究人员在论文中表示，这个模型通过利用物体的运动来发现关键点，将原视频帧（xt）转换成另一个目标帧（xt’）。

这个学习过程分为三个阶段。

在训练期间，空间特征图Φ(xt)和Φ(xt’ )以及关键点坐标Ψ(xt) 和Ψ(xt’) 利用卷积神经网络和斯坦福此前提出的PointNet进行帧的预测，再次过程中，关键点的坐标被转换成高斯热力图（Gaussian heatmaps） HΨ(xt) 和HΨ(xt’)。

在transport期间，这个网络执行两种操作：

一是原帧的特征在HΨ(xt)和HΨ(xt’)中被设置成了0，二是在源目标图像中的特征位置HΨ(xt’)被替换成了HΨ(xt)。

在最后的改进阶段，研究人员又完成了两个任务，分别是在原位置绘制缺失的特征，和清理目标位置附近的图像。

研究人员将这些提取的关键点进行了可视化，并与T. Jakab和Y. Zhang等人此前的最先进关键点提取方法进行了效果对比：

DeepMind提出新型神经网络架构，用无监督方法从视频中提取关键点 | 论文

T. Jakab等人研究： Unsupervised learning of object landmarks through conditional image generation.

地址：http://sina.lt/guuH

Y. Zhang等人研究:Unsupervised discovery of object landmarks as structural representations

地址：https://arxiv.org/abs/1804.04412

研究人员发现，Transporter学习了更多的空间对齐关键点，对不同数量、大小和运动的物体都有很强的鲁棒性。

使用学习的关键点作为状态输入，可在几种雅达利环境中实现比最先进的强化学习方法更好的策略，但只需要100k的环境交互。

DeepMind提出新型神经网络架构，用无监督方法从视频中提取关键点 | 论文

DeepMind团队

这项研究来自DeepMind的Tejas Kulkarni, Ankush Gupta, Catalin Ionescu, Sebastian Borgeaud, Malcolm Reynolds,Andrew Zisserman和Volodymyr Mnih。

一作Tejas Kulkarni目前是DeepMind的高级研究科学家，此前在MIT攻读博士，主要研究视觉运动、深度强化学习代理、以及智能体的语言。

多篇论文被CVPR 17、NIPS 17、ICML 18等顶会收录。

传送门

Unsupervised Learning of Object Keypoints for Perception and Control

https://arxiv.org/abs/1906.11883

https://twitter.com/deepmindai/status/1145677732115898368?s=21

— 完 —

AI社群 | 与优秀的人交流

DeepMind提出新型神经网络架构，用无监督方法从视频中提取关键点 | 论文

小程序 | 全类别AI学习教程

DeepMind提出新型神经网络架构，用无监督方法从视频中提取关键点 | 论文

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

以上所述就是小编给大家介绍的《DeepMind提出新型神经网络架构，用无监督方法从视频中提取关键点 | 论文》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

.NET本质论第1卷:公共语言运行库

博克斯 (BoxDon) / 张晓坤 / 中国电力出版社 / 2004-1 / 48.00元

本书由10章组成，探讨了CLR即公共语言运行库，涵盖了基本类型、实例、方法调用和消息、AppDomain、安全、以及CLR外部世界。一起来看看《.NET本质论第1卷:公共语言运行库》这本书的介绍吧!

码农工具

DeepMind提出新型神经网络架构，用无监督方法从视频中提取关键点 | 论文

新型Transporter架构

DeepMind团队