FAIR 最新论文:一种不需要训练就能探索句子分类的随机编码器

栏目: 数据库 · 发布时间: 5年前

内容简介:雷锋网 AI 科技评论按,作为人工智能的重要方向之一,NLP 领域的研究目前开展得如火如荼。1 月 30 日,facebook 人工智能研究院(FAIR)发布了一篇博文,公布了他们的论文「No Training Required: Exploring Random Encoders for Sentence Classification 」。这篇论文被发布在 arxiv 上,主要讲了一种不需要训练就能探索句子分类的随机编码器。论文的主要介绍如下:这是一个强大的,新颖的语句嵌入基线,它不需要进行任何训练。在没

雷锋网 AI 科技评论按,作为人工智能的重要方向之一,NLP 领域的研究目前开展得如火如荼。1 月 30 日,facebook 人工智能研究院(FAIR)发布了一篇博文,公布了他们的论文「No Training Required: Exploring Random Encoders for Sentence Classification 」。

这篇论文被发布在 arxiv 上,主要讲了一种不需要训练就能探索句子分类的随机编码器。论文的主要介绍如下:

研究内容:

这是一个强大的,新颖的语句嵌入基线,它不需要进行任何训练。在没有任何额外训练的情况下,我们探索了用预训练单词嵌入来计算句子表达方式的各种方法。其目的是让语句嵌入具有更坚实的基础:1)看看现代句子嵌入从训练中获得了多少好处(令人惊讶的是,事实证明,这是微乎其微的);2)为该领域提供更合适(也更强大)的基线。

它是如何工作的:

句子嵌入是一种矢量表示方法,其中句子被映射到表示其意义的数字序列。这通常是通过组合函数转换单词嵌入来创建的。句子嵌入是自然语言处理(NLP)中的一个热门话题,因为它比单独使用单词嵌入更容易进行文本分类。鉴于句子表达研究的快速进展,建立坚实的基线是很重要的。

我们开始使用当前最先进的方法来确定有哪些收获,而不是采用随机的方法,这些随机的方法只结合了预训练的单词嵌入。随机特性的作用在机器学习社区中早已为人所知,因此我们将其应用到这个 NLP 任务中。我们探索了三种方法:随机嵌入投影包、随机 LSTM 和回声状态网络。我们的研究结果表明,句子嵌入中的提升很大程度上来自于词语表征。我们发现,对经过预训练的单词嵌入的随机参数化构成了一个非常强的基线,有些时候,这些基线甚至与诸如 SkipThought 和 InferSent 等著名的句子编码器的性能相匹配。这些发现为今后的句子表征学习的研究提供了强有力的基础。我们还对句子分类评估的一些合适的实验方案进行了认真的探讨,并对今后的研究提出了建议。

雷锋网 (公众号:雷锋网)

为什么它如此重要:

尽管最近对句子编码的研究较多,但是 NLP 的研究者们对于词汇嵌入和句子嵌入之间的关系仍然知之甚少。随着该领域研究的快速进展,对不同方法进行比较并不总是正确的。每隔一段时间我们需要往前回顾,以便对现有的最先进的方法产生更深入地理解,并分析这些方法为什么有效,这一点很重要。通过对句子嵌入的研究提供新的见解,并设置更强的基线,我们可以提高对神经网络表示和理解语言的原理的认识。他们在 Github 上分享了他们的代码。

点击以下链接,阅读全文:

via: https://code.fb.com/ml-applications/random-encoders/

雷锋网

雷锋网版权文章,未经授权禁止转载。详情见 转载须知


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

实战移动互联网营销

实战移动互联网营销

江礼坤 / 机械工业出版社 / 2016-1 / 79.00

移动互联网的兴起,又为企业带来了新的挑战与机遇!越来越多的人,看到了移动互联网的价值与前景,但是在具体操作时,移动互联网具体如何玩?企业如何向移动互联网转型?如何通过移动互联网做营销?等等一系列问题,接踵而至。虽然目前相关的资料和文章很多,但是都过于零散,让人看完后,还是无从下手。而本书旨在成为移动互联网营销领域标准的工具书、参考书,为大家呈现一个系统、全面的移动互联网营销体系。让大家从思维模式到......一起来看看 《实战移动互联网营销》 这本书的介绍吧!

在线进制转换器
在线进制转换器

各进制数互转换器

随机密码生成器
随机密码生成器

多种字符组合密码

html转js在线工具
html转js在线工具

html转js在线工具