GLUE基准新突破:微软多任务模型首次超越自然语言人类基准

栏目: 编程工具 · 发布时间: 5年前

内容简介:通用语言理解评估基准(GLUE)是用于评估和分析多种已有自然语言理解任务的模型性能的工具,模型基于在所有任务的平均准确率进行评估。WNLI(Winograd 自然语言推理)数据集是是 GLUE 中的一个数据集,它是来自(Levesque et al., 2011)的小型自然语言推理数据集。根据 GLUE 排行榜,大部分系统在 WNLI 上取得的准确率为 65% 左右,直到最近这一数字才有了突破性进展。6 月 5 号王玮提交的 ALICE large ensemble (Alibaba DAMO NLP) 系

通用语言理解评估基准(GLUE)是用于评估和分析多种已有自然语言理解任务的模型性能的工具,模型基于在所有任务的平均准确率进行评估。WNLI(Winograd 自然语言推理)数据集是是 GLUE 中的一个数据集,它是来自(Levesque et al., 2011)的小型自然语言推理数据集。

根据 GLUE 排行榜,大部分系统在 WNLI 上取得的准确率为 65% 左右,直到最近这一数字才有了突破性进展。6 月 5 号王玮提交的 ALICE large ensemble (Alibaba DAMO NLP) 系统在 WNLI 上取得了 80.8% 的准确率,6 月 7 号微软提交的

MT-DNN-ensemble 系统在 WNLI 上取得了 89.0% 的准确率,仅次于人类性能 95.9%。

GLUE基准新突破:微软多任务模型首次超越自然语言人类基准

当前 GLUE 排行榜(2019.06.10),微软MT-DNN-ensemble 系统在 WNLI 实现了 89.0% 的准确率,接近人类水平;在 GLUE基准上的平均得分为 87.2,比人类得分高出 0.1。

此前,机器之心曾报道过微软提出的新型 NLP 预训练模型打破了 BERT 在 GLUE基准11 项任务中的性能记录。当时微软模型在 WNLI 上的准确率仅为 65.1%。短短半年过去,微软MT-DNN-ensemble 模型已将这一数字提升了将近 24%,实现了性能飞跃。

GLUE基准新突破:微软多任务模型首次超越自然语言人类基准

2018 年 12 月 23 日 GLUE 排行榜,目前的MT-DNN(平均分 85.1)相比第一版(平均分 81.9)已经有了很大的提升。

模型细节

根据模型描述,微软新模型MT-DNN-ensemble 是一个用于联合训练所有任务的新型多任务框架,所有任务共享同样的结构,除了每项任务的目标函数不同。

从模型的命名可以看出来,MT-DNN-ensemble 就是MT-DNN的多模型集成。虽然 GLUE 描述页面写的MT-DNN-ensemble 的参数量为 3.5 亿,与MT-DNN一样,但可能实际参数量要远远大于它。

GLUE基准新突破:微软多任务模型首次超越自然语言人类基准

MT-DNN-ensemble 地址:https://github.com/namisan/mt-dnn

关于MT-DNN

目前,我们尚不知道MT-DNN-ensemble 模型如何在 WNLI 实现如此巨大的性能飞跃。但根据 GitHub 项目,该新模型同样借鉴了论文《Multi-Task Deep Neural Networks for Natural Language Understanding》。

MT-DNN模型的架构如下图所示。下面几层在所有的任务中共享,上面的几层表示特定任务输出。

单词序列(可以是一句话或者打包在一起的句子对)作为输入 X,先表示为一个嵌入向量序列,其中 l_1 中一个向量对应一个单词。然后 Transformer 编码器通过自注意机制捕捉每个单词的语境信息,在 l_2 中生成语境嵌入序列。这就是我们的多任务目标函数训练得到的共享语义表征。

GLUE基准新突破:微软多任务模型首次超越自然语言人类基准

表征学习MT-DNN模型的架构。下面的网络层在所有任务中都共享,上面的两层是针对特定任务。输入 X(一句话或句子对)首先表征为一个序列的嵌入向量,在 l_1 中每个词对应一个向量。然后 Transformer 编码器捕捉每个单词的语境信息并在 l_2 中生成共享的语境嵌入向量。最后,针对每个任务,特定任务层生成特定任务的表征,而后是分类、相似性打分、关联 排序 等必需的操作。

如图所示,较低层(即文本编码层)在所有任务中共享,而顶层是任务特定的,组合不同类型的 NLU 任务,如单句分类、成对文本分类、文本相似性和相关性排序。与 BERT 模型类似,MT-DNN分两个阶段进行训练:预训练和微调。与 BERT 不同的是,MT-DNN在微调阶段使用 MTL,在其模型架构中具有多个任务特定层。

在多任务精调阶段,我们使用基于 minibatch 的随机梯度下降(SGD)来学习模型参数(也就是,所有共享层和任务特定层的参数),如下图算法 1 所示。

GLUE基准新突破:微软多任务模型首次超越自然语言人类基准


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

传统企业,互联网在踢门

传统企业,互联网在踢门

刘润 / 中国华侨出版社 / 2014-7 / 42

1、第一本传统企业互联网化的战略指导书,首次提出“互联网加减法”,迄今最清晰的转型公式 鉴于目前很多传统企业“老办法不管用,新办法不会用”的现状,本书将用“互联网的加减法” 这个简单模型清晰地说明商业新时代的游戏规则和全新玩法,帮助传统企业化解“本领恐慌” 。 2、小米董事长&CEO 金山软件董事长雷军,新东方教育科技集团董事长兼CEO俞敏洪,复旦大学管理学院院长陆雄文,复旦大学博士、......一起来看看 《传统企业,互联网在踢门》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具