simhash 算法的 java 实现 simhash-java

码农软件 · 软件分类 · 常用工具包 · 2019-08-14 06:41:30

软件介绍

simhash 算法的 java 实现。

特点

  • 计算字符串的 simhash

  • 通过构建智能索引来计算所有字符串之间的相似性,因此可以处理大数据

使用

  • 使用输入文件和输出文件运行 Main

  • inputfile 的格式(参见 src / test_in):一个文件每行用 utf8 字符集

  • outputfile 格式

     

start //start flag

first line // doc

sencode lien // doc1\tdist the dist is the hamming distance between doc and doc1 

end //end flag

本文地址:https://codercto.com/soft/d/12319.html

机器学习系统设计

机器学习系统设计

[德] Willi Richert、Luis Pedro Coelho / 刘峰 / 人民邮电出版社 / 2014-7-1 / CNY 49.00

如今,机器学习正在互联网上下掀起热潮,而Python则是非常适合开发机器学习系统的一门优秀语言。作为动态语言,它支持快速探索和实验,并且针对Python的机器学习算法库的数量也与日俱增。本书最大的特色,就是结合实例分析教会读者如何通过机器学习解决实际问题。 本书将向读者展示如何从原始数据中发现模式,首先从Python与机器学习的关系讲起,再介绍一些库,然后就开始基于数据集进行比较正式的项目开......一起来看看 《机器学习系统设计》 这本书的介绍吧!

MD5 加密
MD5 加密

MD5 加密工具

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换