ICLR 2019最佳论文出炉:微软、MILA、MIT获奖

栏目: 数据库 · 发布时间: 5年前

内容简介:深度学习顶会 ICLR 2019 的两篇最佳论文现已放出,来自蒙特利尔大学、微软研究院和 MIT CSAIL 的研究者获得了最佳论文奖。其中一篇最佳论文探讨自然语言处理问题,提出利用神经元排序将对自然语言层级结构的考虑纳入网络。另一篇最佳论文探讨了模型压缩问题,提出了一个新的概念:彩票假设。一年一度的深度学习盛会 ICLR 将于当地时间 5 月 6 日-9 日在新奥尔良举行。据统计,ICLR 2019 共收到 1591 篇论文投稿,相比去年的 996 篇增长了 60%,其中 oral 论文 24 篇,pos

深度学习顶会 ICLR 2019 的两篇最佳论文现已放出,来自蒙特利尔大学、微软研究院和 MIT CSAIL 的研究者获得了最佳论文奖。其中一篇最佳论文探讨自然语言处理问题,提出利用神经元 排序 将对自然语言层级结构的考虑纳入网络。另一篇最佳论文探讨了模型压缩问题,提出了一个新的概念:彩票假设。

一年一度的深度学习盛会 ICLR 将于当地时间 5 月 6 日-9 日在新奥尔良举行。据统计,ICLR 2019 共收到 1591 篇论文投稿,相比去年的 996 篇增长了 60%,其中 oral 论文 24 篇,poster 论文 476 篇。

目前,ICLR 2019 的最佳论文已经发布。来自蒙特利尔大学 MILA 研究所、微软研究院的论文《Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks》和来自 MIT CSAIL 研究者的论文《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》夺得本届大会的最佳论文奖项。

论文:Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks

ICLR 2019最佳论文出炉:微软、MILA、MIT获奖

  • 作者:Yikang Shen、Shawn Tan、Alessandro Sordoni、Aaron Courville(蒙特利尔大学 MILA 研究所、微软研究院)

  • 论文地址:https://openreview.net/forum?id=B1l6qiR5F7

摘要:自然语言是层级结构的:较小的单元(如词组)被嵌套在较大的单元(如子句)内。当较大的成分结束时,嵌套在其内部的较小成分也必须是封闭的。尽管标准 LSTM 架构允许不同神经元以不同时间尺度追踪信息,但它对建模句子成分层级没有明确的偏置(explicit bias)。

本文提出通过对神经元排序的方式添加此类归纳偏置;master input 向量和遗忘门确保在给定神经元更新时,紧随其后的所有神经元也都得到更新。这一新型循环架构 ordered neurons LSTM (ON-LSTM) 在四种不同任务上获得了优秀性能,分别是:语言建模、无监督解析、目标句法评估和逻辑推理。

ICLR 2019最佳论文出炉:微软、MILA、MIT获奖

图 2:句子成分解析树和 ON-LSTM 隐藏状态之间的对应。

ICLR 2019最佳论文出炉:微软、MILA、MIT获奖

表 1:在 Penn Treebank 语言建模任务上,ON-LSTM、LSTM 等模型在验证集和测试集上的模型困惑度对比。

ICLR 2019最佳论文出炉:微软、MILA、MIT获奖

表 2:ON-LSTM 等模型在完整 WSJ10 和 WSJ 测试集上的无标注解析 F1 结果。

ICLR 2019最佳论文出炉:微软、MILA、MIT获奖

表 3:ON-LSTM 和 LSTM 在每个测试案例中的整体准确率。

ICLR 2019最佳论文出炉:微软、MILA、MIT获奖

图 3:在逻辑数据中的短序列 (≤ 6) 上训练模型的测试准确率。

论文:The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

ICLR 2019最佳论文出炉:微软、MILA、MIT获奖

  • 作者:Jonathan Frankle、Michael Carbin

  • 论文地址:https://openreview.net/forum?id=rJl-b3RcF7

摘要:神经网络 剪枝 技术可将网络参数量减少 90%,进而在不牺牲准确率的前提下减少存储需求、提升推断的计算性能。然而现有经验表明,剪枝生成的解析架构从一开始就很难训练,尽管解析架构同样可以提升训练性能。

我们发现,标准的剪枝技术会自然地发现子网络,这些子网络经过初始化后能够有效进行训练。基于这些结果,我们提出了「彩票假设」(lottery ticket hypothesis):密集、随机初始化的前馈网络包含子网络(「中奖彩票」),当独立训练时,这些子网络能够在相似的迭代次数内达到与原始网络相当的测试准确率。

「中奖彩票」赢得了「初始化彩票」:它们的连接具有使训练非常高效的初始权重。我们提出了一种识别中奖彩票的算法,并用一系列实验来支持彩票假设以及这些偶然初始化的重要性。我们发现在 MNIST 和 CIFAR10 数据集上,「中奖彩票」网络的大小不及全连接、卷积前馈架构的 10%-20%。而且,这种「中奖彩票」比原始网络学习速度更快,测试准确率也更高。

那么,应该如何确定「中奖彩票」呢?该研究提出了以下四个步骤:

ICLR 2019最佳论文出炉:微软、MILA、MIT获奖

ICLR 2019最佳论文出炉:微软、MILA、MIT获奖

图 5:当迭代剪枝并再次随机初始化时,Conv-2/4/6 架构的早停迭代、测试和训练准确率。每条实线是五次试验的平均结果;每条虚线是 15 次再初始化(每次试验 3 次再初始化)的平均结果。

ICLR 2019最佳论文出炉:微软、MILA、MIT获奖

图 6:当用 dropout 迭代剪枝和训练时,Conv-2/4/6 在早停时的测试准确率和早停迭代。虚线代表的是没用 dropout 训练的相同网络(图 5 中的实线)。Conv-2 的学习率为 0.0003,Conv-4 和 Conv-6 的学习率为 0.0002。

ICLR 2019最佳论文出炉:微软、MILA、MIT获奖

图 7:VGG-19 在迭代剪枝时的测试准确率(分别是 3 万次、6 万次、11.2 万次迭代)。

ICLR 2019最佳论文出炉:微软、MILA、MIT获奖

图 8:Resnet-18 在迭代剪枝时的测试准确率(分别是 1 万次、2 万次、3 万次迭代)。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Big Java Late Objects

Big Java Late Objects

Horstmann, Cay S. / 2012-2 / 896.00元

The introductory programming course is difficult. Many students fail to succeed or have trouble in the course because they don't understand the material and do not practice programming sufficiently. ......一起来看看 《Big Java Late Objects》 这本书的介绍吧!

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具