高效的Python全文搜索组件 Whoosh

码农软件 · 软件分类 · 搜索引擎 · 2019-08-27 19:12:01

软件介绍

Whoosh 是一个纯python实现的全文搜索组件。Whoosh不但功能完善,还非常的快。

Whoosh的作者是MattChaput,由Side Effects Software公司开发。项目的最初用于Houdini(Side Effects Software公司开发的3D动画软件)的在线帮助系统。Side Effects Software公司将该项目开源。

主要特性:

    * 敏捷的API(Pythonic API)。
    * 纯python实现,无二进制包。程序不会莫名其妙的崩溃。
    * 按字段进行索引。
    * 索引和搜索都非常的快 -- 是目前最快的纯python全文搜索引擎。
    * 良好的构架,评分模块/分词模块/存储模块等各个模块都是可插拔的。
    * 功能强大的查询语言(通过pyparsing实现功能)。
    * 纯python实现的拼写检查(目前唯一的纯python拼写检查实现)

为啥选择Whoosh

    * 纯python实现,省了编译二进制包的繁琐过程。
    * python代码比java更容易读懂,而且用起来也更方便。(翻者注:这个容易引发口水)
    * 在很多时候易用性比单纯的最求速度更重要。

Whoosh从其他的开源搜索引擎中获取了大量的灵感。 基础构建参考Lucene,使用KinoSearch的索引算法,部分评分算法来自Terrier,英文的词语态变化来自Minion.

本文地址:https://codercto.com/soft/d/13305.html

架构整洁之道

架构整洁之道

【美】Robert C. Martin(罗伯特 C. 马丁) / 电子工业出版社 / 2018-9 / 99.00元

《架构整洁之道》是创造“Clean神话”的Bob大叔在架构领域的登峰之作,围绕“架构整洁”这一重要导向,系统地剖析其缘起、内涵及应用场景,涵盖软件研发完整过程及所有核心架构模式。《架构整洁之道》分为6部分,第1部分纲领性地提出软件架构设计的终极目标,描述软件架构设计的重点与模式;第2~4部分从软件开发中三个基础编程范式的定义和特征出发,进一步描述函数、组件、服务设计与实现的定律,以及它们是如何有效......一起来看看 《架构整洁之道》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具