内容简介:杨植麟是卡内基梅隆大学计算机科学学院的四年级博士生,由Apple AI负责人Ruslan Salakhutdinov指导。在过去的三年中,他作为第一作者在ICIR、ICML、NeurIPSACL和EMNLP等顶级AI会议发表了10多篇论文,并且获得了Nvidia先锋研究奖,Facebook ParlAI研究奖,Nvidia博士奖学金和Siebel奖学金。他曾在Facebook AI Research和Google Brain工作,并与JasonWeston,Quoc V. Le,Yann Lecun,Yo
杨植麟是卡内基梅隆大学计算机科学学院的四年级博士生,由Apple AI负责人Ruslan Salakhutdinov指导。在过去的三年中,他作为第一作者在ICIR、ICML、NeurIPSACL和EMNLP等顶级AI会议发表了10多篇论文,并且获得了Nvidia先锋研究奖,Facebook ParlAI研究奖,Nvidia博士奖学金和Siebel奖学金。他曾在Facebook AI Research和Google Brain工作,并与JasonWeston,Quoc V. Le,Yann Lecun,Yoshua Bengio和Chris Manning合作,曾在唐杰教授指导下,在本科时便发表多篇论文,并以GPA第一名的成绩获得了清华大学的学士学位。
在此次演讲中,他介绍了改进 神经语言模型 神经架构的最新进展:
-
超越Softmax瓶颈的高秩语言模型。
-
用于建模长距离依赖性的Transformer网络。通过提出的技术,在六个主流语言建模数据集上取得世界第一的结果,包括enwiki8、text8、Penn Treebank、WikiText-2、WikiText-103和One Billion Words。
-
此外还介绍了HotpotQA,这是一个用于测试多步推理的挑战数据集。
以下是他此次演讲的主要内容
他首先提到了深度学习自然语言处理的最近趋势,如下:
-
优化语言建模目标的变量
-
用于下游任务的精细调优或特征提取
但是他随即表明挑战依然存在:
-
如何改进 神经语言模型
-
更困难的任务:多跳推理(multi-hop reasoning),可解释性
此次演讲内容依次为:
-
High-rank LM(高秩语言模型)
-
Transformer-XL
-
HotpotQA
第一部分:High-rank LM(高秩语言模型)
1.语言模型的构建:自回归因式分解
2. 带softmax的 神经语言模型 介绍:构建
因式分解
Softmax瓶颈:如果embedding size太小,则Softmax没有表达真实数据分布的能力。
语言模型的秩是什么?—“base meanings”的最小值,需要线性地跨越整个对数概率空间。
高秩假设说明Softmax瓶颈是真实存在的。
怎么样解决Softmax瓶颈?(基本思路)
提出的解决办法:Mixture ofSoftmaxes (MoS)
在Penn Treebank (PTB)、WikiText-2 (WT2)、One Billon WordDataset以及三个数据集集合上的实验效果,显示数据集越大,该方法的提升效果越明显。
总的来说,从softmax到MOS取得了很好的效果,其他的任务需要更高秩的表达,例如,摘要、对话、机器翻译、自动语音识别等。
第二部分:Transformer-XL
Transformer介绍:Transformer是Vaswani等人提出来的概念 Transformer → Multi-Head Self-Attention +Positional Encoding。
Vanilla Transformer Language Models的构建步骤
Transformer-XL构建语言模型
Transformer-XL的训练
Transformer-XL的警告:
-
位置编码对于时态信息至关重要
-
标准位置编码不允许重用以前的状态
enwiki8、text8、Penn Treebank、WikiText-2、WikiText-103和One Billion Words数据集实验均显示State-of-the-art的结果。
第三部分:HotpotQA
他提到了《HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering》这篇论文,并给大家讲了“HotpotQA”这个数据集名称的由来,他和同学在纽约吃火锅的时候讨论到这个问题,说想要建立这样一个数据集,所以就起名叫
火锅QA,顺便还可以发扬一下中国的火锅,看样子,做这个数据集的同学们也是一群吃货呐。
接下来他给大家介绍了根据目前问答的研究现状,HotpotQA设计来实现跨多个文档的多跳推理。
实验数据集的统计与分析
在演讲的最后,他表示未来的工作主要有两项:
1. 将这些新的模型运用到预训练中
2. HotpotQA方法与BERT类似的方法进行比较
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- DeepMind宣布基于AI的蛋白质模型预测获得初步进展
- AI今年最大进展就是毫无进展?2019年AutoML、GAN将扛大旗
- 视频行为识别年度进展
- UDPA最新进展深度介绍
- 区块链关键技术研究进展
- 旷视首席孙剑:视觉计算前沿进展
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Machine Learning
Kevin Murphy / The MIT Press / 2012-9-18 / USD 90.00
Today's Web-enabled deluge of electronic data calls for automated methods of data analysis. Machine learning provides these, developing methods that can automatically detect patterns in data and then ......一起来看看 《Machine Learning》 这本书的介绍吧!