机器阅读(一)--整体概述

栏目: 数据库 · 发布时间: 5年前

内容简介:主要包含:机器阅读的起因和发展历史;MRC数学形式;MRC与QA的区别;MRC的常见数据集和关键模型1) 词性分析2) 命名实体识别

主要包含:机器阅读的起因和发展历史;MRC数学形式;MRC与QA的区别;MRC的常见数据集和关键模型

发展动机

传统NLP任务

1) 词性分析 part-of-speech tagging :判断词性

2) 命名实体识别 named entity recognition 识别实体

3) 句法依存 sytactic parsing 找到词间关系、语法结构信息

4) 指代消解 coreference resolution

阅读理解动机

  1. 让机器理解人类语言是AI领域长期存在的问题

  2. 阅读理解能综合评估各项NLP任务,是一个 综合性任务

  3. 阅读理解探索更加 深层次的理解

  4. 回答问题是 检测机器是否读懂文章 最好的办法

历史发展

早期系统

1. QUALM系统 Lehnert ,1977年

2. 早期数据集 Hirschman ,1999年

  • 小学文章,3年级-6年级
  • 60篇 - 60篇:dev - test
  • 只需要 返回包含正确答案的句子 即可
  • who what when where why

3. Deep Read系统 Hirschman ,1999年

rule-based bag-of-words

4. QUARC系统 Riloff and Thelen ,2000年

  • rule-based
  • 基于词汇和语义对应

还有3和4的结合( Charniak ,2000年),准确率在30%-40%左右。

机器学习时代

1. 三元组

(文章,问题,答案)

2. 两个数据集

MCTest :四选一;660篇科幻小说

ProcessBank :二分类;585问题,200个段落;生物类型文章;需要理解实体关系和事件

3. 传统规则方法

不使用训练数据集

1)启发式的滑动窗口方法

计算 word overlapdistance information

2)文本蕴含方法

用现有的文本蕴含系统,把 (问题,答案) 对转化为一个 statement

3)max-margin 学习框架,使用了很多语言特征:

句法依存、semantic frames、 指代消解、 discourse relation和 词向量等特征。

4. 机器学习方法

机器学习方法比规则方法好,但是任然有很多不足:

1)依赖于现有语言特征工具

  • 许多NLP任务没有得到有效解决
  • 任务泛化性差,一般在单一领域训练
  • 语言特征任务添加了噪声

2)很难模拟人类阅读,难以构建有效特征

3)标记数据太少,难以训练出效果好的统计模型

深度学习时代

深度学习火热于2015年,DeepMind的Hermann大佬提出了一种新型低成本构建大规模监督数据的方法,同时提出了 attention-based LSTM

神经网络效果较好,能更好地在词/句子上做match。

1) CNN/Daily-Mail数据集

  • 把文章标题/摘要中的名词mask掉,再提问这个名词
  • 使用NER和指代消解等技术
  • 半合成的数据集,存在误差,影响发展

2) SQuAD数据集

  • 107785问答数据,546文章
  • 第一个大规模机器阅读理解数据集
  • 推动了很多机器阅读模型的发展

3) 深度学习的优点

  • 不依赖于语言特征工具,避免了噪声误差等
  • 传统NLP方法特征稀少、难以泛化
  • 不用去手动构建特征, 工作重心在模型设计上

任务形式

阅读理解任务看作是一种监督学习任务,目的是学习一种映射关系: \[ f: (p, q) \to a \] 根据答案类型,分为如下四种形式的机器阅读任务。

完形填空

预测一个词汇,一般平均3.5个词汇长度。准确率评估。

四选一

从k个答案中选择一个,一般是一个词、一个短语和一个答案。准确率评估。

Span预测

抽取式问答,预测答案在文章中start和end位置。

Exact Match 评估:准确率。测试集会有多个正确答案,EM匹配一个就好。

F1 score 评估:句子单词之间的overlap,忽略字符和a an the。计算最优的F1。 \[ \rm{ F1 = \frac{2*Precision*Recall}{Precision + Recall} } \]

自然形式

自然语言回答,没有固定的形式 free-form answer 。没有明确统一的评估指标。有如下几个:

  • BLEU(注意看新文章,好像说这个评测不是很好)
  • Meteor
  • ROUGE

MRC和QA的比较

机器阅读理解是Question Answering的一个特例。

1) 相同点:问题形式、解决方法和评估方法

2) 不同点

问答系统 在于:

  • 旨在构建问答系统,依赖于各种资源
  • 资源包括:结构化数据、非结构化文本、半结构化表格和其他形式的资源
  • QA致力于:寻找和识别有用资源;集成各种资源的信息;研究人们常问的问题

机器阅读 在于:

  • 文本问答
  • 需要去理解文本信息
  • 答案只依赖于文章
  • 会设计不同类型问题去测试机器对文章不同方面的理解

数据集和模型

机器阅读的发展原因:大规模数据和端到端神经网络模型的出现。

数据集促进了模型,模型又进一步促进了数据集的发展。

机器阅读(一)--整体概述

主要模型

CNN/Daily Mail

完型填空,名词

MCTest

四选一,MCTest论文

SQuAD 1.1

span预测。SQuAD1.1有如下缺点:

  • 问题是根据文章提出的,降低了回答问题的难度
  • 答案缺少yes/no、计数、why、how等问题类型
  • 答案很短,只有span类型
  • 缺少多句推理,SQuAD只需要一个句子便能回答

TriviaQA

span预测。 TriviaQA数据集论文

优点
缺点

RACE

四选一。中国初高中试题。 RACE数据集论文

NarrativeQA

free-form答案形式。 NarrativeQA数据集论文

  • 书籍/电影:原文和摘要
  • 摘要问答和原文问答,平均长度分别是659和62528
  • 如果是原文,需要IR提取相关片段
  • free-form 难以评估

SQuAD 2.0

Span预测。加入no-answer。SQuAD 2.0和 数据集论文

HotpotQA

113k问答数据,可解释的多步推理问答。HotpotQA和 数据集论文

supporting fact

参考文献


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Programming Ruby

Programming Ruby

Dave Thomas、Chad Fowler、Andy Hunt / Pragmatic Bookshelf / 2004-10-8 / USD 44.95

Ruby is an increasingly popular, fully object-oriented dynamic programming language, hailed by many practitioners as the finest and most useful language available today. When Ruby first burst onto the......一起来看看 《Programming Ruby》 这本书的介绍吧!

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具