谷歌推最新NLP模型XLNet，二十项任务完胜BERT

内容简介：智东西（公众号：zhidxcom）编 | 赵佳蕊

智东西（公众号：zhidxcom）

编 | 赵佳蕊

导语：谷歌推出最新NLP模型XLNet在20个NLP任务中胜过了BERT，并在18个任务中取得了当前最佳效果。

智东西6月24日消息，上周三，谷歌大脑和卡内基梅隆大学的一组研究人员推出了最新的AI模型XLNet，它在20个NLP（(Natural Language Processing）的任务中胜过了谷歌的BERT(Bidirectional Encoder Representations from Transform)，在18个任务中取得了当前最佳效果。BERT是谷歌的语言表示模型，用于无监督预训练自然语言处理。

XLNet在几个任务中的表现都优于BERT，包括7个GLUE语言理解任务，3个像SQuAD这样的阅读理解任务，以及7个文本分类（包括处理Yelp和IMDB数据集）的任务。与BERT相比，XLNet处理文本分类的错误率下降了16%。谷歌在2018年秋天开源了BERT，而真正令人激动的是， XLNet 已经开放了训练代码和大型预训练模型。

一、用自回归和自动编码方法进行无监督预训练

周三，六位作者共同在arXiv（文档收录网站）发布论文。文中表示，通过运用多种技术，XLNet利用了最好的自回归和自动编码的方法进行了无监督预训练。

文章中指出，XLNet是一种广义自回归预训练方法，通过使因子分解所有排列顺序的可能性最大化，去学习双向上下文，并且由于其自回归性，来利用乘法法则对预测token（令牌，代表执行某些操作权利的对象）的联合概率执行因式分解（factorize），这消除了 BERT 中的独立性假设的局限。

二、融合自回归模型 Transformer-XL 的思路

XLNet的名字来源于Transformer-XL，这是同一组研究人员于一月份发布的自回归模型。为了实现节段递归机制和相关编码方案，XLNet采用了Transformer-XL的预训练方法。

同时，XLNet还借鉴了NADE（Neural Autoregressive Distribution Estimation）的训练方法，这个模型是由Google DeepMind、Twitter和学术界的研究人员为NADE排列语言建模方法而创建的。

此前，微软的AI研究人员在五月推出了多任务深层神经网络（MT-DNN），这个模型和BERT结合之后，在许多GLUE（语言理解基准性能）任务上实现了更好的性能。目前，XLNet是最新的NLP模型，它的性能优于BERT，未来也许会有更好的应用。

论文地址：https://arxiv.org/pdf/1906.08237.pdf

开源代码与预训练模型：https://github.com/zihangdai/xlnet

文章来源：VentureBeat

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

JavaScript高级程序设计:第2版

Nicholas Zakas / 李松峰、曹力 / 人民邮电出版社 / 2010-7 / 89.00元

《JavaScript高级程序设计(第2版)》在上一版基础上进行了大幅度更新和修订，融入了近几年来JavaScript应用发展的最新成果，几乎涵盖了所有需要理解的重要概念和最新的JavaScript应用成果。从颇具深度的JavaScript语言基础到作用域(链)，从引用类型到面向对象编程，从极其灵活的匿名函数到闭包的内部机制，从浏览器对象模型(BOM)、文档对象模型(DOM)到基于事件的Web脚本......一起来看看《JavaScript高级程序设计:第2版》这本书的介绍吧!

码农工具