继BERT之后,这个新模型再一次在11项NLP基准上打破纪录

栏目: 编程工具 · 发布时间: 7年前

和微软新模型都采用了通用语言理解评估(GLUE)基准中的 11 项任务,并希望借助 GLUE 展示模型在广泛自然语言理解任务中的鲁棒性。其中 GLUE基准并不需要知道具体的模型,因此原则上任何能处理句子和句子对,并能产生相应预测的系统都能参加评估。这 11 项基准任务重点衡量了模型在跨任务上的能力,尤其是参数共享或迁移学习的性能。

从微软新模型在 GLUE基准的表现上来看,至少它在 11 项 NLP 任务中比BERT-Large 更高效。这种高效不仅体现在 81.9 的总体任务评分,同时还体现在参数效率上。微软的新模型只有 1.1 亿的参数量,远比BERT-Large 模型的 3.35 亿参数量少,和BERT-Base 的参数量一样多。下图展示了 GLUE基准排名前 5 的模型:

继BERT之后,这个新模型再一次在11项NLP基准上打破纪录

在「Microsoft D365 AI & MSR AI」模型的描述页中,新模型采用的是一种 多任务联合学习 。因此所有任务都共享相同的结构,并通过多任务训练方法联合学习。此外,这 11 项任务可以分为 4 类,即句子对分类 MNLI、QQP、QNLI、STS-B、MRPC、RTE 和 SWAG;单句子分类任务 SST-2、CoLA;问答任务 SQuAD v1.1;单句子标注任务(命名实体识别)CoNLL-2003 NER。

其中在句子对分类任务中,有判断问答对是不是包含正确回答的 QNLI、判断两句话有多少相似性的 STS-B 等,它们都用于处理句子之间的关系。而单句子分类任务中有判断语句中情感趋向的 SST-2 和判断语法正确性的 CoLA 任务,它们都在处理句子内部的关系。

在 SQuAD v1.1 问答数据集中,模型将通过问题检索段落中正确回答的位置与长度。最后在命名实体识别数据集 CoNLL 中,每一个时间步都会预测它的标注是什么,例如人物或地点等。

如下所示为微软新模型在不同任务中的得分:

继BERT之后,这个新模型再一次在11项NLP基准上打破纪录

目前微软新模型的性能还非常少,如果经过多任务预训练,它也能像BERT那样用于更广泛的 NLP 任务,那么这样的高效模型无疑会有很大的优势。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

智慧社会

智慧社会

阿莱克斯·彭特兰 (Alex Pentland) / 汪小帆、汪容 / 浙江人民出版社 / 2015-4 / CNY 56.90

●如果要在大数据领域推举出一个代表性的科学家,阿莱克斯·彭特兰是一个无法令人忽略的名字。经过数年极具开创性的研究,社会物理学这个全新科学领域的根基已足够深厚。社会物理学是关于想法流的科学,正是在想法流的帮助下,我们才得以提高集体智能,促进智慧社会的形成。 ● 通过研究数以百万计的人在智能手机、GPS设备、互联网等地方留下的“数字面包屑”,大数据的应用已成为一股无法被忽视的力量。在大数据的应用......一起来看看 《智慧社会》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具