优化 jieba-rs 中文分词性能评测 (快于 cppjieba 33%)

栏目: 编程工具 · 发布时间: 5年前

内容简介:昨晚写了一篇关于优化测试机器的机器规格如下测试过程仿照

昨晚写了一篇关于优化 jieba-rs 英文的介绍,但想说 jieba 的使用者多半还是在中文圈,对于宣传来讲 hacker news 跟 reddit 可能无法触及到真正会使用的用户群,于是为了宣传,也是为了让 search engine 可以搜索到,就来把性能的部分另外写成中文的一篇。关于过程我就不再重新用中文再写一次了,实在太累人。有兴趣的人可以阅读英文版

测试机器的机器规格如下

MacBook Pro (13-inch, 2017, Two Thunderbolt 3 ports)
2.5 GHz Intel Core i7
16 GB 2133 MHz LPDDR3

测试过程仿照 结巴(Jieba)中文分词系列性能评测 所描述,先按行读取文本围城到一个数组里,然后循环 50 次对围城每行文字作为一个句子进行分词。 分词算法都是采用精确模式,也就是包含了 HMM 的部分。

耗时数据如下,从高到低排序

实作 耗时 版本 .
cppjieba 6.219s 866d0e8
jieba-rs (master) 4.330s a198e44
jieba-rs (darts) 4.138s ab2fbfe

以上耗时都是计算分词过程的耗时,不包括词典载入的耗时。

这篇会着重于评测只是为了宣传,并不想陷入语言之争,这也是我英文版有写主要是分享关于用 Rust 优化的经验,也是为了我自己衡量可以在工作中多认真使用 Rust 为目的。


以上所述就是小编给大家介绍的《优化 jieba-rs 中文分词性能评测 (快于 cppjieba 33%)》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

第三次工业革命

第三次工业革命

[美] 杰里米•里夫金(Jeremy Rifkin) / 张体伟 / 中信出版社 / 2012-5 / 45.00元

第一次工业革命使19世纪的世界发生了翻天覆地的变化 第二次工业革命为20世纪的人们开创了新世界 第三次工业革命同样也将在21世纪从根本上改变人们的生活和工作 在这本书中,作者为我们描绘了一个宏伟的蓝图:数亿计的人们将在自己家里、办公室里、工厂里生产出自己的绿色能源,并在“能源互联网”上与大家分享,这就好像现在我们在网上发布、分享消息一样。能源民主化将从根本上重塑人际关系,它将影响......一起来看看 《第三次工业革命》 这本书的介绍吧!

html转js在线工具
html转js在线工具

html转js在线工具

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试