继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

栏目: 编程工具 · 发布时间: 6年前

和微软新模型都采用了通用语言理解评估（GLUE）基准中的 11 项任务，并希望借助 GLUE 展示模型在广泛自然语言理解任务中的鲁棒性。其中 GLUE基准并不需要知道具体的模型，因此原则上任何能处理句子和句子对，并能产生相应预测的系统都能参加评估。这 11 项基准任务重点衡量了模型在跨任务上的能力，尤其是参数共享或迁移学习的性能。

从微软新模型在 GLUE基准的表现上来看，至少它在 11 项 NLP 任务中比BERT-Large 更高效。这种高效不仅体现在 81.9 的总体任务评分，同时还体现在参数效率上。微软的新模型只有 1.1 亿的参数量，远比BERT-Large 模型的 3.35 亿参数量少，和BERT-Base 的参数量一样多。下图展示了 GLUE基准排名前 5 的模型：

在「Microsoft D365 AI & MSR AI」模型的描述页中，新模型采用的是一种多任务联合学习。因此所有任务都共享相同的结构，并通过多任务训练方法联合学习。此外，这 11 项任务可以分为 4 类，即句子对分类 MNLI、QQP、QNLI、STS-B、MRPC、RTE 和 SWAG；单句子分类任务 SST-2、CoLA；问答任务 SQuAD v1.1；单句子标注任务（命名实体识别）CoNLL-2003 NER。

其中在句子对分类任务中，有判断问答对是不是包含正确回答的 QNLI、判断两句话有多少相似性的 STS-B 等，它们都用于处理句子之间的关系。而单句子分类任务中有判断语句中情感趋向的 SST-2 和判断语法正确性的 CoLA 任务，它们都在处理句子内部的关系。

在 SQuAD v1.1 问答数据集中，模型将通过问题检索段落中正确回答的位置与长度。最后在命名实体识别数据集 CoNLL 中，每一个时间步都会预测它的标注是什么，例如人物或地点等。

如下所示为微软新模型在不同任务中的得分：

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

目前微软新模型的性能还非常少，如果经过多任务预训练，它也能像BERT那样用于更广泛的 NLP 任务，那么这样的高效模型无疑会有很大的优势。

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

网页设计创意书（卷2）

麦克尼尔 / 图灵编辑部 / 人民邮电 / 2012-1 / 49.00元

《网页设计创意书(卷2)》是《网页设计创意书》的卷2，但并非其简单补充，而是作者基于近几年网站发展新趋势的再创作。《网页设计创意书(卷2)》先讲解了如何从他人的优秀设计中寻找灵感，接着阐述了重点、对比、平衡、对齐等网站设计的基本原则，然后将网站按类型、设计元素、风格和主题、结构样式和结构元素分类，并分章介绍了每一类的设计技巧。《网页设计创意书(卷2)》语言简练，结合作者精挑细选的网站实例，通俗易懂......一起来看看《网页设计创意书（卷2）》这本书的介绍吧!

码农工具

JS 压缩/解压工具

在线压缩/解压 JS 代码

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

网页设计创意书（卷2）

JS 压缩/解压工具

Base64 编码/解码