simhash 算法的 java 实现 simhash-java

码农软件 · 软件分类 · 常用工具包 · 2019-08-14 06:41:30

软件介绍

simhash 算法的 java 实现。

特点

  • 计算字符串的 simhash

  • 通过构建智能索引来计算所有字符串之间的相似性,因此可以处理大数据

使用

  • 使用输入文件和输出文件运行 Main

  • inputfile 的格式(参见 src / test_in):一个文件每行用 utf8 字符集

  • outputfile 格式

     

start //start flag

first line // doc

sencode lien // doc1\tdist the dist is the hamming distance between doc and doc1 

end //end flag

本文地址:https://codercto.com/soft/d/12319.html

大数据之眼

大数据之眼

[德]尤夫娜·霍夫施泰特 / 陈巍 / 浙江文艺出版社 / 2018-5-7 / 68.00元

德国狂销10万册的大数据商业应用畅销书,经典之作《大数据时代》的姊妹篇。 该书在德语国家促发了一场关于大数据,人工智能与人的关系建构的大讨论。 德国大数据与人工智能领域权威,首度为中国读者亲笔作序。 在后大数据时代,如何维护自己的隐私,如何巧妙利用资源获得更多金钱? 一部对大数据发展所产生的问题进行思考和规避的先知式作品。 当智能机器欲“优化”我们,入侵我们的生活,统......一起来看看 《大数据之眼》 这本书的介绍吧!

URL 编码/解码
URL 编码/解码

URL 编码/解码

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具