更新、挑错、识别假新闻，MIT推出维基百科AI编辑系统

栏目: IT技术 · 发布时间: 5年前

内容简介：文丨学术头条维基百科作为任何人都可以编辑的在线百科全书，需要大量的志愿者编辑花费大量时间精力来让每一个词条保持最新。虽然志愿者编辑有很多，但要保障每天成千上万的页面及时更新，仍是一件极具挑战的任务。

文丨学术头条

维基百科作为任何人都可以编辑的在线百科全书，需要大量的志愿者编辑花费大量时间精力来让每一个词条保持最新。虽然志愿者编辑有很多，但要保障每天成千上万的页面及时更新，仍是一件极具挑战的任务。

不久前，麻省理工学院的研究人员推出了一种新的 AI 系统，该系统可用于自动更新在线百科全书中的任何不准确之处，从而为人类编辑们提供帮助。

麻省理工学院计算机科学和 AI 实验的博士生 Darsh Shah 说道，“维基百科的文章需要不断更新，因此需要数百人来修改每篇文章，而 AI 可以自动完成修改，这极大提高了效率。”

研究人员提出了一种文本系统，该系统可精确定位并替换相关维基百科句子中的特定信息，同时使用类似于人类的书写和编辑方式的语言。

当人们在界面输入带有更新信息的非结构化句子时，AI 会在维基百科中搜索正确的页面和过时的信息，然后以类似于人类的语言风格呈现内容。

此前也存在许多其他可以自动进行维基百科编辑的机器人，但 Shah 说道，“这些工具更多的是基于规则，将一些狭义的信息放入预定义的模版中，然而编辑的任务更多的是需要对两个句子中相互矛盾的部分进行推理，然后生成连贯的文本句子。研究人员的模型解决了这个问题，通过输入一条非结构化的信息，模型以人性化的方式自动修改句子。”

AI 识别矛盾信息

识别两个单独的句子之间的矛盾信息，并将它们融合在一起，这对于人类而言是一项十分容易的任务，但对于机器学习而言却是一项新颖的任务。

例如原始的句子：“基金 A 认为活跃运营公司中的 42 种少数股权中有 28 种对集团特别重要”，而最新的信息则是：“基金 A 认为 43 个少数股权中有 23 个意义重大”。

根据这两个句子，系统将首先找到有关 “基金 A” 的相关维基百科文本，然而自动去除过时的数字 28 和 42，并用新的数字 23 和 43 替换它们。

更新、挑错、识别假新闻，MIT推出维基百科AI编辑系统

一般来说，该系统在包含句子对的流行数据集上进行训练，其中一个句子是声明，另一个是相关的维基百科的句子。每对都用三种方式进行标记：同意，表示句子匹配； 不同意 ，表示存在矛盾的信息；中性，表示没有足够的信息可用于任何一个标签。

系统的目标是修改所有过时的句子，达到相应的要求，也要使所有不一致的句子对都达到 “同意”。因此，这就需要使用单独的模型来产生所需的输出。

该模型是事实检查分类器，预先将每个句子对标记为 “同意”、“不同意” 或 “中立”，重点关注 “不同意” 的句子对。与分类器一起运行的是一个自定义的 “中性屏蔽器” 模块，该模块可识别过时句子中的哪些词与声明中的句子相矛盾。它在过时的句子上创建了一个二进制 “掩码”，其中 0 放在最有可能需要删除的单词上，而 1 放在保留的单词上。

屏蔽之后，在过时的句子处使用两个编码器 - 解码器框架，对需要删除的单词（用 0 覆盖的单词）结合不同的信息来融合填补。

该模型与其他几种传统的文本生成方法相比，在更新事实信息时更加准确，其输出与人类写作更加相似。在一项测试中，研究人员根据模型的输出句子包含事实更新和匹配人类语法的程度对该模型进行了评分（从 1 到 5）， 该模型的 事实更新平均得到达到了 4，语法匹配得分为 3.85，高于了其他所有传统方法。

研究人员希望未来 AI 能够自动完成整个过程，也就意味着它可以在网上搜索某个相关主题的最新新闻，并替换文本，自动化更新维基百科上过时的信息。

扩充数据集，消除误差

该研究还表明，当训练 “假新闻” 的检测器时，该系统可用于增强数据集，以消除偏见。

“假新闻” 是一种包含虚假信息的宣传方式，旨在博人眼球，误导读者或是引导公众舆论。这些部分检测器在同意 - 不同意对的数据集上进行训练，匹配给定的证据来验证真假新闻。在这些句子对中，声明可将某些信息与维基百科上的支持 “证据” 相比较，模型经过训练，通过反驳证据，将句子标记为 “假”，从而帮助识别假新闻。

但数据集往往带有意想不到的偏差。Shah 说道，“在训练过程中，模型按照人类的书面语言要求将某些语言标记为假例，而不必过多依赖相应的证据语句。这会降低模型在评估实际示例中的准确性，因为它不执行事实检查。”

因此，研究人员使用了相同删除和融合技术，来平衡数据集中的不同意对，并帮助减轻偏见，在某些 “不同意” 对中，他们使用修改后的句子中的虚假信息来重新生成伪造的 “证据” 支持句子，某些短句也同时存在于 “同意” 和 “不同意” 句子中，这将使得模型分析更多的特征，得到扩充的数据集。

研究人员利用这一方法将一种流行的假新闻检测器的错误率降低了 13%。

维基百科部署 AI 编辑

早在 2015 年，维基百科就构建了一个人工智能引擎，旨在自动分析维基百科的更改。

由于任何人都可以编辑维基百科，那么任何人都可以错误地添加虚假信息，破坏站点，所以最早的维基百科建立了严格的筛选制度，阻止了很多人加入维基百科的编辑行列。

Halfaker 是维基百科的资深研究科学家，他建立了自己的 AI 引擎来识别这种破坏行为，以更友好的方式提高新手的参与度。同时他也承认，“这项服务无法捕获所有破坏行为，但它可以捕获最多的破坏。”

Halfaker 的项目实际上是为了增加人们对维基百科的参与，而放到 5 年后的今天，新的文本系统的出现，可自动更新维基百科的信息，极大减少了志愿编辑者的工作，编辑者也朝着被淘汰的方向行走。

机器越来越智能，机器自动化替代人类工作也越来越普遍，人类是否会被机器替代也是当下的热点话题。有人预测 AI 和机器人技术将在未来 20 年内取代我们多达 47% 的工作，但同时也有人认为 AI 将创造大量新工作。

未来的事谁都说不准，我们唯一能做的是把握当下。

资料来源：

[1]https://www.siliconrepublic.com/machines/wikipedia-editors-ai-fake-news[2] https://www.sciencedaily.com/releases/2020/02/200212164647.htm[3]https://www.wired.com/2015/12/wikipedia-is-using-ai-to-expand-the-ranks-of-human-editors/

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

代码的未来

[日] 松本行弘 / 周自恒 / 人民邮电出版社 / 2013-6 / 79.00元

《代码的未来》是Ruby之父松本行弘的又一力作。作者对云计算、大数据时代下的各种编程语言以及相关技术进行了剖析，并对编程语言的未来发展趋势做出预测，内容涉及Go、VoltDB、node.js、CoffeeScript、Dart、MongoDB、摩尔定律、编程语言、多核、NoSQL等当今备受关注的话题。　　《代码的未来》面向各层次程序设计人员和编程爱好者，也可供相关技术人员参考。一起来看看《代码的未来》这本书的介绍吧!

码农工具