simhash算法库 simhash

码农软件 · 软件分类 · 自然语言处理 · 2019-10-11 21:58:27

软件介绍

专门针对中文文档的simhash算法库

简介

此项目用来对中文文档计算出对应的 simhash 值。 simhash 是谷歌用来进行文本去重的算法,现在广泛应用在文本处理中。

详见SimhashBlog

特性

  • 使用 CppJieba 作为分词器和关键词抽取器

  • 使用 jenkins 作为 hash 函数

  • hpp 风格,所有源码都是 .hpp 文件里面,方便使用。 没有链接,就没有伤害。

依赖

  • g++ (version >= 4.1 recommended), or clang++ .

用法

mkdir build cd build
cmake ..
make

演示

./bin/simhash.demo

结果如下:

文本:"我是蓝翔技工拖拉机学院手扶拖拉机专业的。不用多久,我就会升职加薪,当上总经理,出任CEO,走上人生巅峰。"
关键词序列是: ["蓝翔:11.7392", "CEO:11.7392", "升职:10.8562", "加薪:10.6426", "手扶拖拉机:10.0089"]
simhash值是: 17831459094038722629
100010110110和110001110011 simhash值的相等判断如下:
海明距离阈值默认设置为3,则isEqual结果为:0
海明距离阈值默认设置为5,则isEqual结果为:1

详情请看 src/main.cpp

客服

i@yanyiwu.com

本文地址:https://codercto.com/soft/d/16556.html

Python Algorithms

Python Algorithms

Magnus Lie Hetland / Apress / 2010-11-24 / USD 49.99

Python Algorithms explains the Python approach to algorithm analysis and design. Written by Magnus Lie Hetland, author of Beginning Python, this book is sharply focused on classical algorithms, but it......一起来看看 《Python Algorithms》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

html转js在线工具
html转js在线工具

html转js在线工具

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具