神经语言模型的最新进展

栏目: 编程工具 · 发布时间: 6年前

内容简介：杨植麟是卡内基梅隆大学计算机科学学院的四年级博士生，由Apple AI负责人Ruslan Salakhutdinov指导。在过去的三年中，他作为第一作者在ICIR、ICML、NeurIPSACL和EMNLP等顶级AI会议发表了10多篇论文，并且获得了Nvidia先锋研究奖，Facebook ParlAI研究奖，Nvidia博士奖学金和Siebel奖学金。他曾在Facebook AI Research和Google Brain工作，并与JasonWeston，Quoc V. Le，Yann Lecun，Yo

神经语言模型的最新进展

杨植麟是卡内基梅隆大学计算机科学学院的四年级博士生，由Apple AI负责人Ruslan Salakhutdinov指导。在过去的三年中，他作为第一作者在ICIR、ICML、NeurIPSACL和EMNLP等顶级AI会议发表了10多篇论文，并且获得了Nvidia先锋研究奖，Facebook ParlAI研究奖，Nvidia博士奖学金和Siebel奖学金。他曾在Facebook AI Research和Google Brain工作，并与JasonWeston，Quoc V. Le，Yann Lecun，Yoshua Bengio和Chris Manning合作，曾在唐杰教授指导下，在本科时便发表多篇论文，并以GPA第一名的成绩获得了清华大学的学士学位。

在此次演讲中，他介绍了改进神经语言模型神经架构的最新进展：

超越Softmax瓶颈的高秩语言模型。
用于建模长距离依赖性的Transformer网络。通过提出的技术，在六个主流语言建模数据集上取得世界第一的结果，包括enwiki8、text8、Penn Treebank、WikiText-2、WikiText-103和One Billion Words。
此外还介绍了HotpotQA，这是一个用于测试多步推理的挑战数据集。

以下是他此次演讲的主要内容

他首先提到了深度学习自然语言处理的最近趋势，如下：

优化语言建模目标的变量
用于下游任务的精细调优或特征提取

神经语言模型的最新进展

但是他随即表明挑战依然存在：

如何改进神经语言模型
更困难的任务：多跳推理（multi-hop reasoning），可解释性

神经语言模型的最新进展

此次演讲内容依次为：

High-rank LM（高秩语言模型）
Transformer-XL
HotpotQA

神经语言模型的最新进展

第一部分：High-rank LM（高秩语言模型）

1.语言模型的构建：自回归因式分解

神经语言模型的最新进展

2. 带softmax的神经语言模型介绍：构建

神经语言模型的最新进展因式分解

神经语言模型的最新进展

Softmax瓶颈：如果embedding size太小，则Softmax没有表达真实数据分布的能力。

神经语言模型的最新进展

语言模型的秩是什么？—“base meanings”的最小值，需要线性地跨越整个对数概率空间。神经语言模型的最新进展

高秩假设说明Softmax瓶颈是真实存在的。

神经语言模型的最新进展

怎么样解决Softmax瓶颈？（基本思路）

神经语言模型的最新进展

提出的解决办法：Mixture ofSoftmaxes (MoS)

神经语言模型的最新进展

在Penn Treebank (PTB)、WikiText-2 (WT2)、One Billon WordDataset以及三个数据集集合上的实验效果，显示数据集越大，该方法的提升效果越明显。

神经语言模型的最新进展

总的来说，从softmax到MOS取得了很好的效果，其他的任务需要更高秩的表达，例如，摘要、对话、机器翻译、自动语音识别等。

神经语言模型的最新进展

第二部分：Transformer-XL

Transformer介绍：Transformer是Vaswani等人提出来的概念 Transformer → Multi-Head Self-Attention +Positional Encoding。

Vanilla Transformer Language Models的构建步骤

神经语言模型的最新进展

Transformer-XL构建语言模型

神经语言模型的最新进展

Transformer-XL的训练

神经语言模型的最新进展

Transformer-XL的警告：

位置编码对于时态信息至关重要
标准位置编码不允许重用以前的状态

神经语言模型的最新进展

enwiki8、text8、Penn Treebank、WikiText-2、WikiText-103和One Billion Words数据集实验均显示State-of-the-art的结果。

神经语言模型的最新进展

第三部分：HotpotQA

他提到了《HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering》这篇论文，并给大家讲了“HotpotQA”这个数据集名称的由来，他和同学在纽约吃火锅的时候讨论到这个问题，说想要建立这样一个数据集，所以就起名叫

火锅QA，顺便还可以发扬一下中国的火锅，看样子，做这个数据集的同学们也是一群吃货呐。

接下来他给大家介绍了根据目前问答的研究现状，HotpotQA设计来实现跨多个文档的多跳推理。

神经语言模型的最新进展

实验数据集的统计与分析

神经语言模型的最新进展

在演讲的最后，他表示未来的工作主要有两项：

1. 将这些新的模型运用到预训练中

2. HotpotQA方法与BERT类似的方法进行比较

神经语言模型的最新进展

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

风口上的汽车新商业

郭桂山 / 人民邮电出版社 / 59

本书从互联网+汽车趋势解析、汽车电商困局突围策略、汽车后市场溃败求解等三个篇章详细阐述了作者的观察与思考，当然更多的还是作者在汽车电商行业的实践中得出的解决诸多问题的战略策略，作者站在行业之巅既有战略策略的解决方案，同时也有战术上的实施细则，更有实操案例解析与行业大咖访谈等不可多得的干货。当然，作者一向追崇的宗旨是，书中观点的对错不是最重要的，重在与行业同仁探讨，以书会友，希望作者的这块破砖头，能......一起来看看《风口上的汽车新商业》这本书的介绍吧!

码农工具

神经语言模型的最新进展

以下是他此次演讲的主要内容

风口上的汽车新商业

MD5 加密

正则表达式在线测试

HEX HSV 转换工具