内容简介:该类任务的答案需要在原文中找到,所以模型都是预测原文中每一个词作为答案起始词和终止词的概率非抽取问题相较于抽取问题,答案很多时候不是原文中句子,而且还要面临各种复杂情况,比如数学题,摘要,逻辑,情感等,更多时候采用的是匹配匹配模型,即每个选项同原文的相似度等。这里简单总结了上述文章中在QA任务中的一些技巧或者优化手段
-
- Bert bsaed (50/89), top1 已超越人工
- 一问一答,同一段文章会有多个问题,但是每个问题之间没有联系
Rank | Model | EM | F1 |
---|---|---|---|
Human PerformanceStanford University (Rajpurkar & Jia et al. ‘18) | 86.831 | 89.452 | |
1Mar 20, 2019 | BERT + DAE + AoA (ensemble) Joint Laboratory of HIT and iFLYTEK Research | 87.147 | 89.474 |
-
- Bert bsaed (14/89), top1 已超越人工
- CoQA 数据集中的一个对话:包含一个问题(Qi),一个答案(Ai)和支持答案的理由(Ri)。CoQA侧重点与SQuAD评测不同。 CoQA数据集中的问题不再是单轮的一问一答的形式,而是扩展到多轮的对话交互。 几乎有一半的 CoQA 问题使用共指关系回溯到会话历史,并且很大一部分需要语用推理,这导致仅依赖词汇线索的模型更具挑战性。
Rank | Model | In-domain | Out-of-domain | Overall |
---|---|---|---|---|
Human PerformanceStanford University (Reddy & Chen et al. ‘18) | 89.4 | 87.4 | 88.8 | |
1Mar 29, 2019 | Google SQuAD 2.0 + MMFT (ensemble) MSRA + SDRG | 89.9 | 88.0 | 89.4 |
-
- Bert作为baseline
- 一问多答,同一段文章一个短答案和支持的长答案
-
- 话题引导的问答模式,在基于知识的情况下,引导对话顺着话题继续
baseline system | F1/BLEU1/BLEU2 | DISTINCT1/DISTINCT2 |
---|---|---|
retrieval-based | 31.72/0.291/0.156 | 0.118/0.373 |
generation-based | 32.65/0.300/0.168 | 0.062/0.128 |
-
- 阅读理解数据集,包含中学生和高中生英语考试两个子数据集
Model | Report Time | Institute | RACE | RACE-M | RACE-H |
---|---|---|---|---|---|
Human Ceiling Performance | Apr. 2017 | CMU | 94.5 | 95.4 | 94.2 |
Amazon Mechanical Turker | Apr. 2017 | CMU | 73.3 | 85.1 | 69.4 |
Dual Co-Matching Network (DCMN) (ensemble) | Mar. 2019 | SJTU & CloudWalk | 74.1 | 79.5 | 71.8 |
相关论文阅读
抽取式问答
该类任务的答案需要在原文中找到,所以模型都是预测原文中每一个词作为答案起始词和终止词的概率
- A BERT Baseline for the Natural Questions,标准bert框架解决NQ问题,Google NQ排行榜baseline
- SDN ET: C ONTEXTUALIZED ATTENTION - BASED D EEP N ETWORK FOR C ONVERSATIONAL Q UESTION A N -SWERING,MSRA,BERT预训练作为上游任务,CoQA当前排行11,唯一一个开源的
- COMPETITION ON KNOWLEDGE DRIVEN DIALOGUE,百度,知识驱动对话数据集生成式模型baseline(非Bert模型)
- Data Augmentation for BERT Fine-Tuning in Open-Domain Question Answering. 基于数据增强来微调Bert模型
非抽取式问答,多项选择阅读理解
非抽取问题相较于抽取问题,答案很多时候不是原文中句子,而且还要面临各种复杂情况,比如数学题,摘要,逻辑,情感等,更多时候采用的是匹配匹配模型,即每个选项同原文的相似度等。
- Improving Machine Reading Comprehension with General Reading Strategies,制定了三种能有效提升机器阅读理解的策略
- Option Comparison Network for Multiple-choice Reading Comprehension,期望机器模仿人类阅读过程,比较选项答案之间的微妙不同
- Convolutional Spatial Attention Model for Reading Comprehension with Multiple-Choice Questions,捕捉原文、问题、选项之间的关系,并采用卷积空间层3D融合各个注意力
- Improving Question Answering with External Knowledge,基于外部知识,实体抽取和链接
- Dual Co-Matching Network for Multi-choice Reading Comprehension,原文、实体、选项之间,两两双向建模融合信息
阅读理解任务使用的技巧总结
这里简单总结了上述文章中在QA任务中的一些技巧或者优化手段
-
上游语言模型
这里就是从词向量角度出发,考虑使用更好的预训练的语言模型来提升模型性能,目前来说有以下
- Bert:各种语言模型中收益最大的,基本提升都在5%-10%以上
- GPT
- EMLo
- GloVe:base词向量
除了直接替换词向量为bert以外,还有人把词向量(上下文无关),Bert等(上下文相关)拼接起来,目前也有很多工作会再拼接一些特征向量pos等,效果都有提升
-
下游模型
这里就是通过改模型来提升之前QA的性能,目前来说收益比较大的策略如下
-
Bert基本框架拿来使用
- QA数据集,使用QA框架
- MRC数据集,使用Matching框架
-
在Bert的基础上更改
- 标准QA中Bert输入的顺序,如[p,q&o],改成[q,p&o]等等
- Bert输出层更改,加权平均Bert的隐含层表示
-
数据处理上改进
- 启用外部知识,增强原文,比如通过实体挖掘和链接扩充原文
- 数据增强,提升正样本和样本的质量,相对于随机采样来说
-
三元组关系建模
在QA任务中更好构建原文p,问题q和选项o之间的建模
- 关系建模,p-q,p-o,q-o之间的关系,单项或者双向建模都有
-
信息融合
- 拼接
- 注意力
- 3D注意力
- 多种特征组合
-
各种策略
-
高亮策略HL,增强原文中在问题和选项中出现的词
-
自我评估SA,使模型学会从数据中提取关键信息的能力
-
-
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Spark大数据分析技术与实战
董轶群、曹正凤、赵仁乾、王安 / 电子工业出版社 / 2017-7 / 59.00
Spark作为下一代大数据处理引擎,经过短短几年的飞跃式发展,正在以燎原之势席卷业界,现已成为大数据产业中的一股中坚力量。 《Spark大数据分析技术与实战》着重讲解了Spark内核、Spark GraphX、Spark SQL、Spark Streaming和Spark MLlib的核心概念与理论框架,并提供了相应的示例与解析。 《Spark大数据分析技术与实战》共分为8章,其中前4......一起来看看 《Spark大数据分析技术与实战》 这本书的介绍吧!