ElasticSearch 倒排索引简析

栏目: IT技术 · 发布时间: 4年前

内容简介:假设有一个交友网站,信息表如下:

ElasticSearch 倒排索引简析

内容概要

  • 倒排索引是什么?为什么需要倒排索引?
  • 倒排索引是怎么工作的?

1. 倒排索引是什么?

假设有一个交友网站,信息表如下:

ElasticSearch 倒排索引简析

美女1:“ 我要找在上海做 PHP 的哥哥。

需要匹配 性别、城市、语言列

美女2:“ 我要找北京的爱旅游、爱美食的 JAVA 哥哥。

更复杂了是吧,实际场景中,会有更复杂的排列组合。

对于这类的搜索,关系型数据库的索引就很难应付了,适合使用全文搜索的倒排索引。

倒排索引是一种数据库的索引形式,存储了 “内容 -> 文档” 映射关系 ,目的是快速的进行全文搜索。

2. 倒排索引是怎么工作的?

主要包括2个过程:

  • 创建倒排索引
  • 倒排索引搜索

2.1 创建倒排索引

举个例子,有2个文档:

  • Document#1

Recipe of pasta with sauce pesto

  • Document#2

Recipe of delicious carbonara pasta

先对文档进行分词,形成一个个的 token ,也就是 单词 ,然后保存这些 token 与文档的对应关系。

结果如下:

ElasticSearch 倒排索引简析

2.2 倒排索引搜索

搜索示例:

  • 搜索 “ pasta recipe

先分词,得到2个 token,( “ pasta ”、“ recipe ” )。

然后去倒排索引中进行匹配。

ElasticSearch 倒排索引简析

这2个词在2个文档中都匹配,所以2个文档都会返回,而且分数相同。

  • 搜索 “ carbonara pasta

ElasticSearch 倒排索引简析

同样,2个文档都匹配,都会返回。

这次 document#2 的分数要比 document#1 高。

因为 #2 匹配了2个词(“ carbonara ”、“ pasta ”),#1 只匹配了一个(“ pasta ”)。

2.3 转换

有时我们可以在保存和搜索之前对 token 进行一些转换,最普遍的例如:

  • 扔掉停止词

停止词是那些使用量非常大,但又没有什么意义的词。

例如英文中的 “ of”, “the”, “for ” ……

  • 元素化

把单词处理为字典中的标准词,例如:

“running” => “run”

“walks” => “walk”

“thought” =>“think”

  • 词干分析

通过切断词尾将一个词转换成词根形式的过程。

不能处理不规则动词的情况,但可以处理字典中没有的词。


以上所述就是小编给大家介绍的《ElasticSearch 倒排索引简析》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Egret——HTML5游戏开发指南

Egret——HTML5游戏开发指南

张鑫磊 等 / 电子工业出版社 / 2016-3 / 85

《Egret——HTML5游戏开发指南》由浅入深,在讲解游戏开发基础的同时提供众多实战案例供读者学习。《Egret——HTML5游戏开发指南》章节内容包含Egret基础概念及基础图形图像处理方法、网络相关操作、移动设备适配、性能优化、文本动画相关知识、调试技巧、DragonBones骨骼动画系统和P2物理引擎等。通过《Egret——HTML5游戏开发指南》,读者可以了解并掌握HTML5游戏开发技能......一起来看看 《Egret——HTML5游戏开发指南》 这本书的介绍吧!

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

URL 编码/解码
URL 编码/解码

URL 编码/解码

SHA 加密
SHA 加密

SHA 加密工具