优化 jieba-rs 中文分词性能评测 (快于 cppjieba 33%)

栏目: 编程工具 · 发布时间: 6年前

内容简介:昨晚写了一篇关于优化测试机器的机器规格如下测试过程仿照

昨晚写了一篇关于优化 jieba-rs 英文的介绍,但想说 jieba 的使用者多半还是在中文圈,对于宣传来讲 hacker news 跟 reddit 可能无法触及到真正会使用的用户群,于是为了宣传,也是为了让 search engine 可以搜索到,就来把性能的部分另外写成中文的一篇。关于过程我就不再重新用中文再写一次了,实在太累人。有兴趣的人可以阅读英文版

测试机器的机器规格如下

MacBook Pro (13-inch, 2017, Two Thunderbolt 3 ports)
2.5 GHz Intel Core i7
16 GB 2133 MHz LPDDR3

测试过程仿照 结巴(Jieba)中文分词系列性能评测 所描述,先按行读取文本围城到一个数组里,然后循环 50 次对围城每行文字作为一个句子进行分词。 分词算法都是采用精确模式,也就是包含了 HMM 的部分。

耗时数据如下,从高到低排序

实作 耗时 版本 .
cppjieba 6.219s 866d0e8
jieba-rs (master) 4.330s a198e44
jieba-rs (darts) 4.138s ab2fbfe

以上耗时都是计算分词过程的耗时,不包括词典载入的耗时。

这篇会着重于评测只是为了宣传,并不想陷入语言之争,这也是我英文版有写主要是分享关于用 Rust 优化的经验,也是为了我自己衡量可以在工作中多认真使用 Rust 为目的。


以上所述就是小编给大家介绍的《优化 jieba-rs 中文分词性能评测 (快于 cppjieba 33%)》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Blockchain Basics

Blockchain Basics

Daniel Drescher / Apress / 2017-3-16 / USD 20.99

In 25 concise steps, you will learn the basics of blockchain technology. No mathematical formulas, program code, or computer science jargon are used. No previous knowledge in computer science, mathema......一起来看看 《Blockchain Basics》 这本书的介绍吧!

在线进制转换器
在线进制转换器

各进制数互转换器

URL 编码/解码
URL 编码/解码

URL 编码/解码

MD5 加密
MD5 加密

MD5 加密工具