内容简介:本文是对“事件识别”是舆情监控领域和金融领域的重要任务之一,“事件”在金融领域是投资分析,资产管理的重要决策参考。“事件识别”的复杂性在于事件类型和事件主体的判断,比如“公司A产品出现添加剂,其下属子公司B和公司C遭到了调查”,对于“产品出现问题”事件类型,该句中事件主体是“公司A”,而不是“公司B”或“公司C”。我们称发生特定事件类型的主体成为事件主体,本任务中事件主体范围限定为:公司和机构。事件类型范围确定为:产品出现问题、高管减持、违法违规…本次评测任务的主要目标是从真实的新闻语料中,抽取特定事件类型
任务描述
本文是对 CCKS 的一个评测任务进行介绍,并介绍了其中一个baseline系统。
“事件识别”是舆情监控领域和金融领域的重要任务之一,“事件”在金融领域是投资分析,资产管理的重要决策参考。“事件识别”的复杂性在于事件类型和事件主体的判断,比如“公司A产品出现添加剂,其下属子公司B和公司C遭到了调查”,对于“产品出现问题”事件类型,该句中事件主体是“公司A”,而不是“公司B”或“公司C”。我们称发生特定事件类型的主体成为事件主体,本任务中事件主体范围限定为:公司和机构。事件类型范围确定为:产品出现问题、高管减持、违法违规…
本次评测任务的主要目标是从真实的新闻语料中,抽取特定事件类型的主体。即给定一段文本T,和文本所属的事件类型S,从文本T中抽取指定事件类型S的事件主体。
输入:一段文本,事件类型S
输出:事件主体
示例:
样例1
输入:”公司A产品出现添加剂,其下属子公司B和公司C遭到了调查”,”产品出现问题”
输出:”公司A”
样例2
输入:”公司A高管涉嫌违规减持”,”交易违规”
输出:”公司A”
模型
这种事件抽取任务是偏向于检索匹配以及初步的语义理解技术。实际上这个比赛就是阅读理解竞赛SQUAD 1.0的简化版:它要输入”一段文本”+”事件类型”,输出文本中的实体,如果将”事件类型”看出问题,将”一段文本”看作是篇章,那么它就跟squad 1.0的格式一模一样了,任何squad的模型都可以简化用到这个问题上。本文采用 BiLSTM+指针结构标注实体 。
结构图
1. 模型对事件类型进行向量化得到"类型编码",然后拼接到输入文本中的每一个词向量 2. 将最后的预测转化为了一个序列标注任务,改为"0/1标注"来分开识别答案的开始和终止位置,这可以看成一种"半指针半标注"的结构
BiLSTM
模型中输入一段文本和事件类型,事件类型作为特征,和文本中的每个词进行向量相加。然后输入到双向LSTM中,通过对序列前向和后向进行编码,捕获长远距离依赖关系。模型使用了两个双向LSTM层,然后将隐层向量输出至自注意力层。
注意力
本文的模型中,自注意力层主要对序列进行全新编码,这里的Attention来源于《Attention is all you need》。通过计算序列中词与每个词的相似度,这样的过程重复h次,最后将h次的结果拼接起来,可以从不同的表示空间学习到相关信息。
输出设计
到现在,模型的整体结构应该已经呈现出来了。我们通过双向LSTM和自注意力把输入文本编码为一个固定维度的向量,这个向量中融合了事件类型特征。这时候我们得到了一个混合输入文本、事件类型的特征序列,直接对这个序列进行处理即可,将编码后的序列向量拼接事件类型特征向量,直接对序列进行标注。
既然用到标注,那么理论上最简单的方案是输出一个0/1序列:直接标注出材料中的每个词”是(1)”或”否(0)”答案。然而,这样的效果并不好,因为一个可能由连续多个不同的词组成,要让模型将这些不同的词都有同样的标注结果,有可能”强模型所难”。于是我们还是用两次标注的方式,来分别标注答案的开始位置和终止位置。
这样一来,模型的输出设计跟指针方式和纯序列标注都不一样,或者说是两者的简化及融合。
部分参数
词向量的维度为128,由官方提供的训练语料。
自注意力层的输出维度也为128维
模型使用的多分类损失函数
用adam优化器进行训练,学习速率设置为$10^{-3}$
参考
以上所述就是小编给大家介绍的《金融评测任务》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- WSDM Cup 2020检索排序评测任务第一名经验总结
- 中文NLP的分词真有必要吗?李纪为团队四项任务评测 | ACL 2019
- CMRC2018 评测任务冠军队伍分享: 如何从数据、模型和训练角度提升阅读理解系统性能?
- 小草弯弯开源库评测
- 2019 前端框架对比及评测
- 2019 前端框架对比及评测
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
面向对象分析与设计
Grady Booch、Robert A. Maksimchuk、Michael W. Engel、Bobbi J. Young、Jim Conallen、Kelli A. Houston / 王海鹏、潘加宇 / 人民邮电出版社 / 2009-8 / 79.00元
《面向对象分析与设计(第3版)》是UML创始人Grady Booch的代表作之一,书中介绍的概念都基于牢固的理论基础。同时,《面向对象分析与设计(第3版)》又是一本注重实效的书,面向架构师和软件开发者等软件工程实践者的实际需要。《面向对象分析与设计(第3版)》通过大量例子说明了基本概念,解释了方法,并展示了在不同领域的成功应用。全书分为理论和应用两部分。理论部分深刻剖析了面向对象分析与设计(OOA......一起来看看 《面向对象分析与设计》 这本书的介绍吧!