WWW 2020 | 信息检索中基于上下文的文本词项权重生成

栏目: IT技术 · 发布时间: 4年前

内容简介：©PaperWeekly 原创 · 作者｜金金单位｜阿里巴巴研究实习生

©PaperWeekly 原创 · 作者｜金金

单位｜阿里巴巴研究实习生

研究方向｜推荐系统

本文由卡耐基梅隆大学发表于 WWW 2020，介绍了 基于上下文的文本词项权重生成方法 HDCT 。原有的搜索引擎在使用词袋模型表示文本时，性能受限于基于词频（term frequence）的词项权重，HDCT 可以生成基于上下文的词项权重作为优化方案，该研究对 BM25 等初步检索（first stage）模型性能提升具有较大意义。

WWW 2020 | 信息检索中基于上下文的文本词项权重生成

论文标题： Context-Aware Document Term Weighting for Ad-Hoc Search

论文来源： WWW 2020

论文链接： http://www.paperweekly.site/papers/3972

代码链接： https://github.com/AdeDZY/DeepCT

WWW 2020 | 信息检索中基于上下文的文本词项权重生成

算法

HDCT 算法首先通过 BERT 模型得到段落级词项权重，然后聚合文本内各段落词项权重，最后使用文本内容信号、相关性信号和伪相关反馈信号作为标签训练模型，模型框架图如下：

WWW 2020 | 信息检索中基于上下文的文本词项权重生成

图1. HDCT框架图

段落级词项权重

给定文本，作者首先将其划分为个段落，在此基础上，作者将每个段落输入BERT模型得到各词项的 embedding，并使用回归层得到初步的权重分数：

WWW 2020 | 信息检索中基于上下文的文本词项权重生成

此后作者将权重分数放缩到类似于term frequence的整数范围，例如表示保持原分数的两位小数精度：

WWW 2020 | 信息检索中基于上下文的文本词项权重生成

由此我们可以得到类似于词袋模型的段落向量表示如下：

WWW 2020 | 信息检索中基于上下文的文本词项权重生成

文档级词项权重

根据以上步骤得到的段落级词项权重表示，文档级词项权重可以通过段落级词项权重的加权和表示：

WWW 2020 | 信息检索中基于上下文的文本词项权重生成

具体来说，权重的选取有两种方式：第一种方式认为各段落的重要性相同，即；第二种方式考虑用户阅读的注意力随文本的深入而下降，认为各段落的权重随位置前后逐步递减，具体可设置为。该步骤得到的文档级词项权重可直接应用 BM25 等初步检索模型。

模型训练

根据给定的 ground truth 权重分数，作者以最小化平均平方误差作为目标训练模型，损失函数如下：

WWW 2020 | 信息检索中基于上下文的文本词项权重生成

具体来说，作者提出了三种获取 ground truth 的方法，分别基于文本内容（document content）、基于相关性信号（relevance）和基于伪相关反馈信号（Pseudo-Relevance Feedback）。

基于文本内容的方法考虑包含词项的文本信息源（fields，例如标题、关键词等）的比例。给定文本的段落集合和 field 集合，ground truth 分数计算方法如下：

WWW 2020 | 信息检索中基于上下文的文本词项权重生成

基于相关性信号的方法考虑包含词项的相关查询的比例。给定文本的段落集合和相关查询集合，ground truth 分数计算方法如下：

WWW 2020 | 信息检索中基于上下文的文本词项权重生成

基于伪相关反馈信号的方法考虑包含词项的相关查询得到的伪相关反馈文本的比例。ground truth 分数计算方法如下：

WWW 2020 | 信息检索中基于上下文的文本词项权重生成

实验

本文实验在 ClueWeb 数据集（包括 ClueWeb09-B/C，ClueWeb12-C）和 MS-MARCO Document Ranking 数据集上实现。作者在前者验证了基于内容的训练方法在初步检索任务和重排序任务上的效果，在后者研究了不同训练方法之间的效果差异。

ClueWeb数据集

作者首先在该数据集上对比了传统的 term frequence 算法和 HDCT 得到的权重对 BM25 及相关算法的效果差异。作者分别使用文本的 title 和 inlink 训练模型，发现两种情况效果均优于传统的 term frequence，而在不同的任务上两者效果各有千秋，总体而言使用 inlink 效果略好。

WWW 2020 | 信息检索中基于上下文的文本词项权重生成

在此基础上，作者对比了该模型和目前较好的重排序模型的效果，和基于 BERT 的重排序模型 BERT-FirstP 相比，该模型在使用 title 作为 query 时和 BM25 的结合取得了更好的效果，在使用 description 作为 query 时同样取得相当的效果。考虑到该模型的时间效率，表现的结果很满足实际的应用需求。

WWW 2020 | 信息检索中基于上下文的文本词项权重生成

MS-MARCO数据集

作者在该数据集上研究了不同训练信号对模型性能的影响。作者分别使用 title 作为 content-based 的训练信号（HDCT-title），使用 out-domain 和 in-domain 的伪相关反馈文本作为伪相关反馈信号（HDCT-PRFaol 和 HDCT-PRFmacro），使用训练集查询词作为相关性训练信号（HDCT-supervised）。最终结果显示，三者均优于传统的 term frequence，而相关性训练信号的效果最好。

WWW 2020 | 信息检索中基于上下文的文本词项权重生成

总结

本文介绍了基于上下文的文本词项权重生成方法 HDCT。在搜索引擎在使用词袋模型表示文本时，HDCT 可以生成基于上下文的词项权重，优化检索性能，该研究对 BM25 等初步检索（first stage）模型性能提升具有较大意义。

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？ 答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是 最新论文解读 ，也可以是 学习心得 或 技术干货 。我们的目的只有一个，让知识真正流动起来。

:memo: 来稿标准：

• 稿件确系个人 原创作品 ，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

:mailbox_with_mail: 投稿邮箱：

• 投稿邮箱： hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

:mag:

现在，在 「知乎」 也能找到我们了

进入知乎首页搜索 「PaperWeekly」

点击 「关注」 订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击 「交流群」 ，小助手将把你带入 PaperWeekly 的交流群里。

WWW 2020 | 信息检索中基于上下文的文本词项权重生成

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

疯狂科学家大本营

Bei Er Fei Ao Er / 本书翻译组译、黄晓庆周宇煜张为民审译 / Science Press / 2012-1-5 / 48.00元

美国最棒的创意工场不是贝尔实验室，不是硅谷，也不是麻省理工学院的媒体实验室，而是由五角大楼领导的绝密军事机构DARPA——国防高级研究计划局。DARPA是由美国前总统艾森豪威尔建立的军事部门，创建的目的是为了回应苏联的太空计划。虽然DARPA属于政府机构，但是没有冷冰冰的氛围和官僚做派，那里的科学家偏爱牛仔裤和运动鞋。不过他们最爱的还是在各个领域寻找颠覆性创意。从航空航天、IT，到能源领......一起来看看《疯狂科学家大本营》这本书的介绍吧!

码农工具

WWW 2020 | 信息检索中基于上下文的文本词项权重生成

更多阅读

让你的论文被更多人看到

疯狂科学家大本营

CSS 压缩/解压工具

JSON 在线解析

MD5 加密