python – ALGORITHM – 字符串相似度得分/哈希

栏目: Python · 发布时间: 7年前

内容简介:有没有一种方法来计算字符串的一般“相似性得分”?在某种程度上,我不是将两个字符串比较在一起,而是为每个字符串得到一些数字/分数(哈希),以后可以告诉我两个字符串是否相似.两个相似的字符串应该具有相似(接近)的分数/哈希值.我们将这些字符串和分数视为一个例子:你好世界1000

有没有一种方法来计算字符串的一般“相似性得分”?在某种程度上,我不是将两个字符串比较在一起,而是为每个字符串得到一些数字/分数(哈希),以后可以告诉我两个字符串是否相似.两个相似的字符串应该具有相似(接近)的分数/哈希值.

我们将这些字符串和分数视为一个例子:

你好世界1000

你好,世界! 1010

你好地球1125

Foo bar 3250

FooBarbar 3750

Foo Bar! 3300

Foo世界! 2350

你可以看到Hello world!和Hello世界是相似的,他们的分数彼此接近.

这样,通过从其他分数中减去给定的字符串分数,然后对其绝对值进行排序,可以找到与给定字符串最相似的字符串.

我的最终目标是:会有流式日志消息(只有纯消息),我想找到这些消息的模式(某种正则表达式类型).但只有当我可以存储类似的字符串时才会启动.我再次关注我应该为每个字符串获得一些数字/分数(哈希)并且可以告诉我两个字符串是否相似

看看 locality-sensitive hashing .
The basic idea is to hash the input items so that similar items are mapped to the same buckets with high probability (the number of buckets being much smaller than the universe of possible input items).

有一个非常好的解释 here 以及一些示例代码.

翻译自:https://stackoverflow.com/questions/6665398/algorithm-string-similarity-score-hash


以上所述就是小编给大家介绍的《python – ALGORITHM – 字符串相似度得分/哈希》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

ACM国际大学生程序设计竞赛题解

ACM国际大学生程序设计竞赛题解

赵端阳//袁鹤 / 电子工业 / 2010-6 / 38.00元

《ACM国际大学生程序设计竞赛题解(1)》可以作为高等院校有关专业的本科和大专学生参加国际大学生程序设计竞赛的辅导教材,或者作为高等院校数据结构、C/C++程序设计或算法设计与分析等相关课程的教学参考书。随着各大专院校参加ACM/ICPC热情的高涨,迫切需要有关介绍ACM国际大学生程序设计竞赛题解的书籍。《ACM国际大学生程序设计竞赛题解(1)》根据浙江大学在线题库的前80题,进行了解答(个别特别......一起来看看 《ACM国际大学生程序设计竞赛题解》 这本书的介绍吧!

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具

XML、JSON 在线转换
XML、JSON 在线转换

在线XML、JSON转换工具

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试