内容简介:杨植麟是卡内基梅隆大学计算机科学学院的四年级博士生,由Apple AI负责人Ruslan Salakhutdinov指导。在过去的三年中,他作为第一作者在ICIR、ICML、NeurIPSACL和EMNLP等顶级AI会议发表了10多篇论文,并且获得了Nvidia先锋研究奖,Facebook ParlAI研究奖,Nvidia博士奖学金和Siebel奖学金。他曾在Facebook AI Research和Google Brain工作,并与JasonWeston,Quoc V. Le,Yann Lecun,Yo
杨植麟是卡内基梅隆大学计算机科学学院的四年级博士生,由Apple AI负责人Ruslan Salakhutdinov指导。在过去的三年中,他作为第一作者在ICIR、ICML、NeurIPSACL和EMNLP等顶级AI会议发表了10多篇论文,并且获得了Nvidia先锋研究奖,Facebook ParlAI研究奖,Nvidia博士奖学金和Siebel奖学金。他曾在Facebook AI Research和Google Brain工作,并与JasonWeston,Quoc V. Le,Yann Lecun,Yoshua Bengio和Chris Manning合作,曾在唐杰教授指导下,在本科时便发表多篇论文,并以GPA第一名的成绩获得了清华大学的学士学位。
在此次演讲中,他介绍了改进 神经语言模型 神经架构的最新进展:
-
超越Softmax瓶颈的高秩语言模型。
-
用于建模长距离依赖性的Transformer网络。通过提出的技术,在六个主流语言建模数据集上取得世界第一的结果,包括enwiki8、text8、Penn Treebank、WikiText-2、WikiText-103和One Billion Words。
-
此外还介绍了HotpotQA,这是一个用于测试多步推理的挑战数据集。
以下是他此次演讲的主要内容
他首先提到了深度学习自然语言处理的最近趋势,如下:
-
优化语言建模目标的变量
-
用于下游任务的精细调优或特征提取
但是他随即表明挑战依然存在:
-
如何改进 神经语言模型
-
更困难的任务:多跳推理(multi-hop reasoning),可解释性
此次演讲内容依次为:
-
High-rank LM(高秩语言模型)
-
Transformer-XL
-
HotpotQA
第一部分:High-rank LM(高秩语言模型)
1.语言模型的构建:自回归因式分解
2. 带softmax的 神经语言模型 介绍:构建
因式分解
Softmax瓶颈:如果embedding size太小,则Softmax没有表达真实数据分布的能力。
语言模型的秩是什么?—“base meanings”的最小值,需要线性地跨越整个对数概率空间。
高秩假设说明Softmax瓶颈是真实存在的。
怎么样解决Softmax瓶颈?(基本思路)
提出的解决办法:Mixture ofSoftmaxes (MoS)
在Penn Treebank (PTB)、WikiText-2 (WT2)、One Billon WordDataset以及三个数据集集合上的实验效果,显示数据集越大,该方法的提升效果越明显。
总的来说,从softmax到MOS取得了很好的效果,其他的任务需要更高秩的表达,例如,摘要、对话、机器翻译、自动语音识别等。
第二部分:Transformer-XL
Transformer介绍:Transformer是Vaswani等人提出来的概念 Transformer → Multi-Head Self-Attention +Positional Encoding。
Vanilla Transformer Language Models的构建步骤
Transformer-XL构建语言模型
Transformer-XL的训练
Transformer-XL的警告:
-
位置编码对于时态信息至关重要
-
标准位置编码不允许重用以前的状态
enwiki8、text8、Penn Treebank、WikiText-2、WikiText-103和One Billion Words数据集实验均显示State-of-the-art的结果。
第三部分:HotpotQA
他提到了《HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering》这篇论文,并给大家讲了“HotpotQA”这个数据集名称的由来,他和同学在纽约吃火锅的时候讨论到这个问题,说想要建立这样一个数据集,所以就起名叫
火锅QA,顺便还可以发扬一下中国的火锅,看样子,做这个数据集的同学们也是一群吃货呐。
接下来他给大家介绍了根据目前问答的研究现状,HotpotQA设计来实现跨多个文档的多跳推理。
实验数据集的统计与分析
在演讲的最后,他表示未来的工作主要有两项:
1. 将这些新的模型运用到预训练中
2. HotpotQA方法与BERT类似的方法进行比较
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- DeepMind宣布基于AI的蛋白质模型预测获得初步进展
- AI今年最大进展就是毫无进展?2019年AutoML、GAN将扛大旗
- 视频行为识别年度进展
- UDPA最新进展深度介绍
- 区块链关键技术研究进展
- 旷视首席孙剑:视觉计算前沿进展
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
The Algorithm Design Manual
Steve S. Skiena / Springer / 1998-8-1 / GBP 53.91
Contents u Techniques u Introduction to Algorithms u Correctness and Efficiency u Correctness u Efficiency u Expressing Algorithms u Keeping Score u The RAM Model of Computatio......一起来看看 《The Algorithm Design Manual》 这本书的介绍吧!