搜狗语义匹配技术前沿

栏目: 后端 · 发布时间: 6年前

搜狗搜索引入了诸多前沿技术用于解决信息检索中的语义匹配问题,本文将重点介绍IR-transformer模型和IRGAN强化学习训练框架。我们的研究结果显示,由于IR-Transformer模型使用的multi-head attention技术可以很好的结合上下文语境分析语义,所以IR-Transformer的语义匹配准确度大幅超越了如DSSM、K-NRM等诸多深度学习模型;使用IRGAN框架进行模型训练,可以动态的“提纯”训练数据,部分消除预测精度随训练时间增长而产生的波动性,从而极大地提高训练效率。

摘要:搜索引擎作为上网冲浪的直接入口,其检索能力的强弱直接影响用户的上网体验。深度学习技术近期的爆发式发展也深刻影响着信息检索技术的革新进程,目前已有越来越多的深度学习模型成功应用于信息检索领域并发挥着重要的作用。紧跟学术界的研究进展,搜狗搜索引入了诸多前沿技术用于解决信息检索中的语义匹配问题,例如本文将要介绍的IR-transformer模型和IRGAN强化学习训练框架。我们的研究结果显示,由于IR-Transformer模型使用的multi-head attention技术可以很好的结合上下文语境分析语义,所以IR-Transformer的语义匹配准确度大幅超越了如DSSM、K-NRM等诸多深度学习模型;使用IRGAN框架进行模型训练,可以动态的“提纯”训练数据,部分消除预测精度随训练时间增长而产生的波动性,从而极大地提高训练效率。

序言

1.1  搜索引擎与信息检索技术

随着互联网技术的飞速发展,网络信息的数量也在爆炸式地增长。信息数量的增长一方面使得用户有机会获取更多内容丰富、满足个性化需求的信息;另一方面也可能给用户准确定位其目标需求增加了难度。面对日益丰富的搜索需求,作为获取信息好助手的搜索引擎,也在不断革新其核心技术——信息检索技术(Information Retrieval,IR)。

那么,信息检索技术是如何在搜索引擎中发挥作用的呢?用户在信息检索时,会向搜索引擎输入需要查询的语句(query)。基于用户的查询语句以及特定的IR算法,搜索引擎会计算得到与用户查询匹配度最高的一些网页,并将它们返回给用户。

传统的信息检索算法有BM25等。BM25算法通过网页字段对查询字段的覆盖程度来计算两者间的匹配得分,得分越高的网页与查询的匹配度更好。虽然如BM25等经典检索方法具有逻辑简洁、计算效率高等优势,但是它们也存在忽略字词间的语序逻辑、难以处理近义词间的匹配关系、无法定量表述语义等问题。简言之,经典方法在查询-网页的语义匹配上存在硬伤,而该问题的存在直接导致了传统的检索算法越来越难以满足用户日趋复杂的查询需求。

1.2  经典的深度语义匹配模型

为了解决传统算法在语义感知和匹配上的瓶颈,人们开始将深度学习算法应用于信息检索应用中。深度学习的概念最早由Hinton等人于2006年提出,它利用多层堆垛的非线性感知器对输入数据进行抽象和分析。随着大数据技术的蓬勃发展以及云计算能力的不断增强,深度学习技术开始异军突起,在图像分析、自然语言处理(Natural Language Processing, NLP)、语音识别等应用中发挥威力。

已广泛应用于查询-网页语义匹配的深度学习模型有DSSM(Deep Structured Semantic Model)、CDSSM(Convolutional DSSM)、K-NRM(Kernel based Neural Ranking Model)等。DSSM利用全连接神经网络把查询-网页标题信息抽象表示为高维向量,并利用特定的匹配算法计算查询和网页信息之间的相关性。K-NRM方法首先计算查询和网页标题之间的相似度矩阵,再利用特定的核函数对相似度矩阵进行分析变换,最终利用变换后的矩阵信息计算查询-网页的匹配得分。相对于BM25等经典检索算法,DSSM、K-NRM等深度学习模型的语义感知能力大为提升,比如,可以自动实现近义词间的词义匹配,定量化表述词义和语义等。然而,上述模型并非完美无缺。由于模型架构的局限性,这些深度学习模型还存在难以处理语序逻辑关系、语义分析能力有限(受限于模型表达能力)、查询-网页匹配质量一般等问题。

1.3 搜狗搜索的语义匹配技术前沿

为了不断提升信息检索结果的质量,必须要持续引入新的、表达能力更强的深度学习模型。与此同时,随着模型复杂度的提升,模型参数的寻优也越发困难,所以也必须引入更优的模型训练方法。基于此目的,下文将介绍最新应用于搜狗搜索的深度学习模型以及强化学习训练框架,分别是IR-Transformer和IRGAN(Information RetrievalGenerative Adversarial Network,信息检索生成对抗网络)。

我们的研究结果显示:由于IR-Transformer模型使用的multi-head attention技术可以很好的结合上下文语境分析语义,所以IR-Transformer模型的语义匹配能力大幅超越了如DSSM、K-NRM等诸多的深度学习模型,甚至超越了基于循环神经网络(RecurrentNeural Networks,RNN)、卷积神经网络(ConvolutionalNeural Network,CNN)的深度学习模型;任意深度学习模型均可嵌入IRGAN强化学习框架进行动态的对抗,在训练过程中,训练数据会被动态的优化,从而使该框架可以提高训练效率,收获更高的检索精度。

2 Transformer 模型

2.1 机器翻译 Transformer 模型简介

Transformer模型最初发表在《Attention is all you need》一文 ] ,用于处理机器翻译的问题。与其他机器翻译的研究不同,该模型并没有使用RNN、CNN等经典的神经网络结构,而主要采用multi-head attention(多注意力)技术进行语义分析和处理。

那么,相对于传统的CNN、RNN模型,multi-head attention有哪些好处呢?原文指出,使用multi-head attention技术可以直接处理语句内字词间逻辑关系,该特点可以提高长句的语义分析的精确度。此外,使用multi-head attention的模型还具有更容易进行并行计算等优势。目前,基于Transformer的变种模型已经应用于图像生成、逻辑推理、语句语义计算等诸多领域,充分显示了multi-head attention技术的强大威力。

如图1所示,机器翻译Transformer由一个处理查询信息的编码器(encoder,图1左侧)和一个预测翻译结果的解码器(decoder,图1右侧)组成。当查询语句的“词嵌入”向量(embedding)输入编码器后,编码器会对查询进行编码,并将该编码信息传输给解码器;与此同时,解码器会基于编码信息进行解码,预测出语句翻译结果。这里需要解释一下“词嵌入”的概念和含义:词嵌入意味着用特定的高维向量(embedding)来表示语句中每个字词,向量的数值可以理解为对应字词的抽象含义。由于向量可以进行各种代数运算(但字词不能直接做计算),所以我们可以对字词向量设计特定的算法,利用运算的结果来定量化地表示语句的语义,最终实现如机器翻译、信息检索等应用。值得一提的是,词嵌入是处理绝大多数的NLP问题的第一步,对于本文提到的RNN、CNN、IR-Transformer等模型均是如此。

搜狗语义匹配技术前沿 图1 机器翻译Transformer模型架构 [ 1 ]

2.2  用于信息检索的 IR-Transformer

搜狗搜索对机器翻译Transformer模型进行了一定的改造,建立了用于信息检索的IR-Transformer模型。下文将简要介绍我们模型的架构。

类似于原始的Transformer模型, IR-Transformer模型也分为两大模块:处理查询信息的query编码器(记为q编码器)和处理网页标题的title编码器(记为t编码器)。注意,由于处理信息检索问题时仅需分析已有网页,而不需要生成文字或者网页,所以IR-Transformer架构中不包含解码器。

q编码器、t编码器均为多层结构,较低层的输出作为较高层的输入被进一步处理,不同层的内部结构相同。每层q编码器由两个亚层组成,而每层t编码器由三个亚层组成。q编码器和t编码器的第一个亚层主要执行self multi-head attention操作;q编码器和t编码器的最后一个亚层主要执行非线性变换操作;t编码器的第二层主要执行q->t multi-head attention操作。

细心的读者会发现,该模型共用到两种multi-head attention操作,即self multi-head attention(两种编码器均采用)以及q->t multi-head attention(仅用于t编码器)。实际上,这两种multi-head attention的差别仅在于输入的来源有所不同:前者的输入只包含自身相关的信息;而后者的输入不仅包含t编码器自身的信息,还包含来自q编码器的信息。

为了更形象的说明multi-head attention的运算过程,我们在图2中展示了一个具体的例子:假设q编码器的输入(即用户的查询)是“今天/天气/如何”(斜杠代表分词),一个待分析网页的标题是“近期/天气/汇总”。那么,对于q编码器而言,如图2(a)所示,执行self multi-head attention运算意味着要计算N个相关性矩阵(每个矩阵由如(今天,今天),(今天,天气),(今天,如何)等词对的相关性数值组成)。换言之,词与词之间的相关性即为attention机制,而计算N个相关性矩阵意味着multi-head。由于词对均由q编码器的输入组成,所以对于q编码器而言,这个操作也叫self multi-head attention。利用N个相关性矩阵以及查询语句的初始语义向量(embedding),“今天”、“天气”、“如何”的语义可被进一步深化为三个新向量,如图2(a)的大括号右侧所示。

相对于未经过self multi-head attention的语义向量,新的语义向量含有了上下文的信息(信息来自N个相关性矩阵),内涵更加丰富、全面。所以,IR-Transformer模型拥有结合上下文语境来分析语义的能力,而该能力对于信息检索精度至关重要,我们将在下一小节重点介绍这一特点。

同理,如图2(b)所示,q->t multi-head attention操作需要计算N个相关性矩阵(每个矩阵由如(近期,今天),(近期,天气),(近期,如何)等词对的相关性数值组成)。需要注意的是,词对的组成不光来自t编码器,还来自q编码器(如“今天”等词)。

搜狗语义匹配技术前沿 图2 (a) self multi-head attention与 (b) q->t multi-head attention示意

经过q编码器、t编码器的多层处理,用户查询和网页标题的语义已被充分抽象。利用加权平均、神经网络处理等方法,我们可以用两个高维向量来分别表示查询和网页标题。比如对于图2中的例子,查询和网页标题的信息可以分别表示为q=(q 1 , q 2 , …, q k )以及t=(t 1 , t 2 ,…, t k )。基于这两个高维向量的相似度(例如cos内积的大小),搜索引擎可以给网页打分,将高分的网页返回给发出查询请求的用户。

为了提高模型的精度以及收敛效率,我们也参考了原始文献,在IR-Transformer中加入了残差连接(residual connection)、层正则化(layer normalization)等技术;为了增加语序分析能力,我们在模型中加入了位置编码(positional encoding)等操作。

2.3 IR-Transformer 的效果

信息检索领域的一个重要的难题是:如何结合上下文语境分析语义,并对查询与网页的语义进行匹配。举个例子,假设用户的查询是“哪家/医院/看/XX病/水平/好”,一个相关性较好的网页标题信息是“各大/医院/治/XX病/效果”。对于该查询,其语义的核心在于“看/XX病”,而网页信息的核心则是“治/XX病”。在一般的语义环境中,“看”字的语义和“治”字的语义差别很大,所以如果直接计算“看”和“治”的相关性,则用户的查询和该网页的匹配度会比较差。但是,如果结合“XX病”这个上下文语境,“看”字和“治”字的语义相关性就非常强了。换言之,一个好的搜索算法必须能够在感知上下文的前提下进行语义匹配。然而,K-NRM以及DSSM等深度学习模型从原理上无法做到这一点,所以这些算法的搜索精度有限。

那么IR-Transformer感知上下文语境的能力怎样呢?我们做了如下实验:选择6个不同类型的网站,分别是(0)新浪博客,(1)道客巴巴,(2)宝宝树,(3)56网,(4)大众点评和(5)土巴兔。每个网站确定100个互不重复的专属关键词,例如新浪博客的专属关键词是“博客”、“口述”等,道客巴巴是“汇报”、“文献”等,宝宝树是“试纸”、“分泌物”等。接下来,对每个网站分别选择含有专属关键词的网页标题,并利用self multi-head attention对这些网页标题进行处理。为了可视化显示self multi-head attention的语义分析能力,我们采用了T-SNE算法对这些专属关键词的语义向量进行了降维。

搜狗语义匹配技术前沿 图3 self multi-head attention的语境分析能力。本图采用了T-SNE降维算法对语义向量进行可视化。散点之间的距离越近意味着它们的语义相关性越强。

如图3(a)所示,在没有经过self multi-head attention之前,这些专属关键词的语义向量的区别并不大(各个颜色的散点并没有被明确区分成簇)。但是经过了两层self multi-head attention操作后,这些关键词的语义被明显区分开了。

那么图3背后的道理是什么呢?经过self multi-head attention之前,网页标题中不同词之间没有任何的相关性操作,即该语义向量中并没有任何的上下文的信息;经过self multi-head attention之后,由于attention操作(具体见上一节),这些关键词的语义中包含了上下文的信息。因为不同类型的(如新浪博客和道客巴巴)网页标题的上下文语境会有巨大差别,所以经过self multi-head attention之后,语义向量会被分在不同的簇内。

总结上文,图3的结果显示了IR-Transformer具有很强的感知上下文语境的能力,因此该模型的检索能力远超DSSM、KNRM等传统深度信息检索模型,甚至超越了如RNN、CNN等经典的模型。可以想见,对于在本节开头提出的“看病”的查询和“治病”的网页之间的匹配问题,IR-Transformer会表现的非常出色。

3IRGAN 模型

3.1  信息检索问题的模型训练

机器学习的基础理论指出,任何机器学习方法都是由模型、策略以及寻优算法构成的。其中,模型指的是机器学习方法的框架结构;策略以及寻优算法主要针对模型的训练:如何设定损失函数、梯度优化算法等环节来高效获得最优的模型参数。换言之,从方法论的角度,为了得到一个高精度的机器学习(深度学习)模型,设计完了模型框架并非大功告成,训练方法的设计也异常关键:我们必须确定模型的有效训练方法,才能获得最优模型数据,从而进行结果预测。

对于传统的训练方法,输入给模型的训练数据会被提前制作好并封装成为训练集合。在训练过程中,模型会从集合中随机抽样获得某条训练数据。可以想见,采用这样的训练方法,训练数据整体的学习难度就等于被构造的训练集的学习难度。换言之,训练难度是静态的。

然而,模型会随着训练而“成长”,静态的训练难度不容易获得最优的训练模型。这是为什么呢?举个例子来解释:当一个高中生刚开始学习高中知识时,他开始可能会觉得有点难,但后来会越来越适应,并很快掌握了这些知识;当这个高中生毕业后进入了大学,如果他还只学习高中难度的知识,他就学不到什么新的内容了。对于深度学习的模型训练,道理亦是如此:一成不变的学习难度难以完全激发模型的潜力。

为了解决训练集难度不变的问题,搜狗搜索引入了IRGAN强化学习训练框架:采用该框架可以动态的提升训练数据的难度,从而提高训练效率以及预测精度。

3.2IRGAN 原理

IRGAN模型最初发表在《Irgan: A minimax game for unifying generative and discriminative information retrieval models》。该模型脱胎于在图片生成领域得到广泛应用的生成对抗网络(Generative Adversarial Network,GAN)。

为了更好地理解IRGAN的工作机制,我们首先介绍GAN。GAN是一种强化学习方法,其基本思想是让模型在对抗中学习训练样本的特征。GAN由生成器(generator,记为G)和判别器(discriminator,记为D)组成。以图片生成领域的上色问题为例,为了训练GAN,我们需要一系列彩色图片以及与彩色图片对应的黑白图片。生成器以黑白图片输入,利用CNN等神经网络结构,生成黑白上色的彩色图片。此后,生成器将生成的彩色图片(或者说伪彩色照片)与真实的彩色图片一起提交给判别器,让其从中选择哪个是真实的彩色图片。如果判别器选错了,判别器将会受到惩罚;反之如果判别器选对了,生成器将会受到惩罚。在GAN的训练过程中,生成器和判别器会动态的寻找彼此的弱点,并不断增强自身。在训练结束后,生成器为模型有效的部分:生成器会将待上色的黑白照片处理成为逼真的彩色照片。

对于IRGAN而言,其设计思想与传统的GAN大同小异:同样是利用生成器和判别器之间的博弈来让两者相辅相成,共同成长。然而,由于IR的任务并不是生成以假乱真的虚假网页,而是返回更准确的检索结果,所以IRGAN的模型架构、训练方法、训练数据构造均与传统的GAN有一定差别。

3.3IRGAN 训练框架

IRGAN的训练数据必须满足一定的格式要求。比如,每条训练数据要包括一个查询语句query以及多个(个数大于2)与查询相关的网页数据。此外,每条训练数据还要在多个网页数据中标明哪个与本条query最为相关。记与当前查询最为相关的网页为doc + ,其他网页信息为doc - ,那么训练集的格式即为(query, doc + , doc - , doc - , … ,doc - )。

搜狗语义匹配技术前沿 图4 IRGAN模型架构

如图4所示,IRGAN的训练过程可分为判别器的训练和生成器的训练两部分。在训练判别器时,生成器首先会拿到形如(query, doc + , doc - , doc - , … ,doc - )的初始数据。为了最大程度的欺骗判别器,生成器会从诸多doc - 中挑选一个它认为与查询最相关的网页数据,并将这个doc - 与doc + (实际上最相关的网页数据)拼在一起形成新的数据对(query, doc + , doc - )。判别器会对生成器产生的数据对做出选择:究竟哪个网页与查询最相关。如果判别器选择错误(换言之,被生成器骗到了),那么它将会被惩罚,从而得到训练。

必须要指出的是,由于生成器在不断进化,所以它产生的数据对(query, doc + , doc - )也在不断发生改变。该变化即上文所述的“动态对抗使得训练数据的难度发生变化”。

生成器的前半部分训练流程基本与判别器的训练流程一致:生成器获得原始数据,生成为了欺骗判别器的数据对。此后,当判别器对数据对做出判断之后,会输出一个混淆评分给生成器。混淆评分越大意味着判别器越容易被生成器产生的数据所迷惑;反之,评分越小意味着生成器产生的数据并没有让判别器特别困扰。该混淆评分会作为生成器的奖励,指导生成器的优化方向。随着生成器训练的推进,它会分析出除了doc + 外哪个doc - 的语义最接近query,从而更准确的攻击判别器的选择盲区并得到更高的奖励。

IRGAN是一种对抗训练的模式,有对抗就有强弱(即检索能力的高低),所以在训练完成后,我们可以选生成器和判别器中能力更强的那个来进行信息检索。

值得一提的是,IRGAN模型规定的是训练的框架,而没有对判别器和生成器的内部结构做出任何限定。换言之,任何可用作信息检索的深度学习模型都可以当作IRGAN的生成器或者判别器。例如上文介绍的IR-transformer模型就可嵌入IRGAN框架中。

3.4IRGAN 的效果

为了证实IRGAN的确在动态对抗中优化了输入的训练集,我们做了如下实验:对于某一深度信息检索模型,我们让其在普通的训练模式下训练一定时间,并将该状态作为初始状态进一步进行两种方式的训练:(a)继续进行普通训练;(b)分别当作IRGAN的生成器和判别器的初始状态,并让生成器和判别器进行对抗训练。

如图5所示,(a)图表示采用普通模式得到的预测精度(DCG5)随训练的变化,(b)图表示采用IRGAN模式得到的预测精度随训练的变化。图5(b)中蓝色点为生成器的预测精度,绿色点为判别器的预测精度,黑色点为在训练开始前的预测精度,红色区域代表生成器训练的阶段。

训练集由大量的训练数据组成,从微观角度,部分训练数据较难学习,而部分训练数据较容易被学习。在普通的训练模式中,模型通过从集合中抽样获得训练数据,所以训练数据的难度随机变化,起伏较大。可想而知,以这样的训练方式得到的结果的精度也必然是随机起伏的,恰如图5(a)所示。不幸的是,当预测精度出现随训练时长的随机性波动,一般也就意味着训练的效率大幅下降了。

那么,有没有什么办法可以降低这种随机性呢?答案就是采用IRGAN训练框架。在动态对抗下,生成器会学到判别器的弱点,并对原始训练集进行“提纯”,即从4个doc - 中选择一个最难分辨的doc - 交给判别器去抉择。值得注意的是,经过了生成器的提纯,判别器得到的训练数据难度再也不是随机变化的了。如图5(b)所示,在IRGAN训练框架下,生成器和判别器的预测精度具有明确的周期性变化趋势,且生成器和判别器的能力交替上升和下降。判别器预测精度上升意味着在此阶段判别器很好地“击败了”生成器;反之,如果预测精度下降,意味着在此阶段判别器完全被搞迷糊了,学错了很多“知识”。

精度的周期性波动取代随机性波动说明了IRGAN训练模式对训练数据提纯的有效性。换言之,将深度学习模型嵌入到IRGAN框架下再进行训练具有大幅提高训练效率、充分发掘模型能力等优势。我们的研究结果显示,达到同样的信息检索精度,使用IRGAN框架可以节省一半甚至更多的训练时间。

搜狗语义匹配技术前沿 图5 使用IRGAN训练框架,可以“精炼”训练数据,并在一定程度上消除预测精度的随机性波动。

总结与展望

随着学术界对深度学习研究的不断深入,优秀的算法和技术手段在不断涌现。本文介绍的IR-transformer模型和IRGAN训练框架就是近期学界的新鲜成果。

然而必须要指出的是,虽然信息检索中的很多问题可以利用深度学习模型较好的解决,但是还有大量的问题亟待研究。比如,深度学习的模型训练需要大量的高质量数据(data-hungry),如何通过用户点击或者其他行为得到足够纯净的训练集是决定深度学习模型能力强弱的重要难题;此外,未来的深度学习模型还需考虑更多样的搜索需求,比如考虑用户的个性化特点,搜索产生的时间、地点,用户的搜索历史等信息。

道路虽然曲折,但前途依然光明。随着大数据技术的不断发展以及对深度学习、机器学习算法研究的不断深入,我们有理由相信,未来的搜索引擎一定会越发智能化、个性化,伴随在人们上网冲浪的点滴时刻。

参考文献:

[[i]]     Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, et al., editors. Attention is all you need. Advances in Neural Information Processing Systems; 2017.

[[ii]]    Parmar N, Vaswani A, Uszkoreit J, Kaiser Ł, Shazeer N, Ku A. Image Transformer. arXiv preprint arXiv:180205751. 2018.

[[iii]]   Vaswani A, Bengio S, Brevdo E, Chollet F, Gomez AN, Gouws S, et al.Tensor2tensor for neural machine translation. arXiv preprint arXiv:180307416. 2018.

[[iv]]   Dehghani M, Gouws S, Vinyals O, Uszkoreit J, Kaiser Ł. Universal Transformers. arXiv preprint arXiv:180703819. 2018.

[[v]]    Cer D, Yang Y, Kong S-y, Hua N, Limtiaco N, John RS, et al. Universal sentence encoder. arXiv preprint arXiv:180311175. 2018.

[[vi]]     Wang J, Yu L, Zhang W, Gong Y, Xu Y, Wang B, et al., editors. Irgan: A minimax game for unifying generative and discriminative information retrieval models. Proceedings of the 40th International ACM SIGIR conference on Research and Development inInformation Retrieval; 2017: ACM.

搜狗语义匹配技术前沿 搜狗搜索NLP

解读搜狗搜索在自然语言处理方面的新动向

理论 强化学习 语义匹配 深度学习 信息检索 机器翻译 Transformer

相关数据

神经网络 技术

Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

来源:机器之心

大数据 技术

Big data

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

来源: 维基百科

收敛 技术

Convergence

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

来源: Wikipedia Google ML glossary

BM25

在信息检索领域,Okapi BM25(BM代表最佳匹配)是搜索引擎根据其与给定搜索查询的相关性对匹配文档进行排名的排名函数。它基于Stephen E. Robertson,KarenSpärckJones等人在70年代和80年代开发的概率检索框架。

来源: Robertson, S., & Zaragoza, H. (2009). The probabilistic relevance framework: BM25 and beyond. Foundations and Trends® in Information Retrieval, 3(4), 333-389.

降维 技术

Dimensionality reduction

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

来源:机器之心

Generative Adversarial Networks

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

来源: Generative Adversarial Networks

核函数 技术

Kernel function

核函数包括线性核函数、多项式核函数、高斯核函数等,其中高斯核函数最常用,可以将数据映射到无穷维,也叫做径向基函数(Radial Basis Function 简称 RBF),是某种沿径向对称的标量函数。最常应用于SVM支持向量机中

来源: 百度百科

逻辑 技术

Logic

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

来源:机器之心

信息检索 技术

Information Retrieval

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

来源:机器之心

机器学习 技术

Machine Learning

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

来源:Mitchell, T. (1997). Machine Learning. McGraw Hill.

损失函数 技术

Loss function

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源: Wikipedia

Natural language processing

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

来源: 维基百科

机器翻译 技术

Machine translation

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

来源:机器之心

参数 技术

parameter

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

来源: 维基百科

正则化 技术

Regularization

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

来源:李航著 统计学习方法 清华大学出版社

查询 技术

Query

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

来源: Wikipedia

感知 技术

perception

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

来源: 维基百科

强化学习 技术

Reinforcement learning

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

来源:机器之心

语音识别 技术

Speech Recognition

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

来源: What is Automatic Speech Recognition?

词嵌入 技术

Word embedding

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

来源: 维基百科

深度学习 技术

Deep learning

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源: LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

搜狗 机构

Sogou

搜狗成立于2003年,是中国搜索行业挑战者,AI领域的创新者。目前搜狗月活跃用户数仅次于BAT,是中国用户规模第四大互联网公司。2004年8月,搜狗推出搜狗搜索,现已成为中国第二大搜索引擎。2006年6月,推出搜狗输入法,重新定义了中文输入,目前搜狗输入法覆盖超5亿用户,是国内第一大中文输入法。2017年11月9日,搜狗在美国纽约证券交易所正式挂牌上市,股票交易代码为“SOGO”,开盘价为13.00美元,市值超50亿美元。

张量 技术

Tensor

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

来源: 维基百科

云计算 技术

Cloud Computing

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

来源: Cloud Computing


以上所述就是小编给大家介绍的《搜狗语义匹配技术前沿》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

零基础学C语言

零基础学C语言

康莉//李宽 / 机械工业 / 2009-4 / 48.00元

《零基础学C语言》的特点是内容全面、翔实,通俗易懂,循序渐进地介绍了C语言各方面的知识,重点突出。《零基础学C语言》含有大量实例,代码短小精炼,紧扣所讲要点的本质,以加深读者的印象,同时结合笔者多年使用C语言的经验,阐述了很多代码编写技巧,读者可将代码复制到自己的机器上进行实验,自行实践和演练。C语言是编程方式灵活多样、功能强大、应用广泛的一种程序设计语言。从程序设计语言的发展历程来看,尽管后来出......一起来看看 《零基础学C语言》 这本书的介绍吧!

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

MD5 加密
MD5 加密

MD5 加密工具

SHA 加密
SHA 加密

SHA 加密工具