最佳化 jieba-rs 中文斷詞性能測試 (快于 cppjieba 33%)

栏目: 编程工具 · 发布时间: 5年前

内容简介:昨晚寫了一篇關於最佳化測試機器的機器規格如下測試過程仿照

昨晚寫了一篇關於最佳化 jieba-rs 英文的介紹,但想說 jieba 的使用者多半還是在中文圈,對於宣傳來講 hacker news 跟 reddit 可能無法觸及到真正會使用的使用者,於是為了宣傳,也是為了讓 search engine 可以搜尋到,就來把性能的部分另外寫成中文的一篇。關於過程我就不再重新用中文再寫一次了,實在太累人了。有興趣的人可以閱讀英文版

測試機器的機器規格如下

MacBook Pro (13-inch, 2017, Two Thunderbolt 3 ports)
2.5 GHz Intel Core i7
16 GB 2133 MHz LPDDR3

測試過程仿照 結巴(Jieba)中文分詞系列性能評測 所描述,先一行一行讀取檔案圍城到一個陣列裡,然後循環 50 次對圍城每行文字作為一個句子進行斷詞。 分詞算法都是採用精確模式,也就是包含了 HMM 的部分。

耗時的資料如下,從高到低排序

實作 耗時 版本 .
cppjieba 6.219s 866d0e8
jieba-rs (master) 4.330s a198e44
jieba-rs (darts) 4.138s ab2fbfe

以上耗時都是計算斷詞過程的耗時,不包括字典載入的耗時。

這篇會著重於評測只是為了宣傳,並不想陷入語言之爭,這也是我英文版有寫主要是分享關於用 Rust 最佳化的經驗,也是為了我自己衡量可以在工作中多認真使用 Rust 為目的。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

引爆流行

引爆流行

[美] 马尔科姆·格拉德威尔 / 钱清、覃爱冬 / 中信出版社 / 2002-7 / 18.00元

马尔科姆·格拉德威尔以社会上突如其来的流行风潮研究为切入点,从一个全新的角度探索了控制科学和营销模式。他认为,思想、行为、信息以及产品常常会像传染病爆发一样,迅速传播蔓延。正如一个病人就能引起一场全城流感;如果个别工作人员对顾客大打出手,或几位涂鸦爱好者管不住自己,也能在地铁里掀起一场犯罪浪潮;一位满意而归的顾客还能让新开张的餐馆座无虚席。这些现象均属“社会流行潮”,它爆发的那一刻,即达到临界水平......一起来看看 《引爆流行》 这本书的介绍吧!

URL 编码/解码
URL 编码/解码

URL 编码/解码

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具