- 授权协议: GPL
- 开发语言: Java
- 操作系统: 跨平台
- 软件首页: https://github.com/ysc/cws_evaluation/
- 软件文档: https://github.com/ysc/cws_evaluation/
软件介绍
中文分词器分词效果评估对比
使用说明:
如何建立开发环境?
如果是使用Netbeans、IDEA,则直接打开项目 如果是使用Eclipse、MyEclipse,则要执行导入操作 推荐使用IDEA
评估采用的测试文本位于data目录下,253 3709行,共2837 4490个字符
test-test.txt为未分词的文件,一行一个句子或短语,格式如下:
迈向充满希望的新世纪 一九九八年新年讲话 附图片1张 中共中央总书记 国家主席江泽民 一九九七年十二月三十一日 12月31日 总书记 国家主席江泽民发表1998年新年讲话 新华社记者兰红光摄
standard-text.txt为人工分好词的文件,用于判断参与评估的分词器的分词结果是否正确,词和词之间以空格分隔,格式如下:
迈向 充满 希望 的 新 世纪 一九九八年 新年 讲话 附 图片 1 张 中共中央 总书记 国家 主席 江泽民 一九九七年 十二月 三十一日 12月 31日 总书记 国家 主席 江泽民 发表 1998年 新年 讲话 新华社 记者 兰红光 摄
注意:由于每个分词器的词典格式不一致,除了词典之外使用的其他模型的格式也不一致,所以我们评估对比时没有让所有分词器使用统一的词典和模型,测试的是各个分词器的默认行为
运行org.apdplat.evaluation.Evaluator类可获得评估结果
运行org.apdplat.evaluation.WordSegmenter类可对比不同分词器结果
windows:
./contrast.bat ./evaluation.bat
linux:
chmod +x contrast.sh & ./contrast.sh chmod +x evaluation.sh & ./evaluation.sh
最终评估结果文件位于report目录下:分词效果评估报告.txt
注意:stanford分词器是吃内存的怪兽,运行的时候需要增加虚拟机参数 -Xms3000m -Xmx3000m
评估报告:
1、word分词 全切分算法:
分词速度:51.79764 字符/毫秒
行数完美率:58.79% 行数错误率:41.2% 总的行数:2533709 完美行数:1489713 错误行数:1043996
字数完美率:49.53% 字数错误率:50.46% 总的字数:28374490 完美字数:14054431 错误字数:14320059
2、Ansj BaseAnalysis 基本分词:
分词速度:1235.2847 字符/毫秒
行数完美率:55.36% 行数错误率:44.63% 总的行数:2533709 完美行数:1402905 错误行数:1130804
字数完美率:48.18% 字数错误率:51.81% 总的字数:28374490 完美字数:13672441 错误字数:14702049
3、word分词 双向最大最小匹配算法:
分词速度:219.50127 字符/毫秒
行数完美率:55.31% 行数错误率:44.68% 总的行数:2533709 完美行数:1401582 错误行数:1132127
字数完美率:45.83% 字数错误率:54.16% 总的字数:28374490 完美字数:13005696 错误字数:15368794
4、smartcn:
分词速度:578.7523 字符/毫秒
行数完美率:55.29% 行数错误率:44.7% 总的行数:2533690 完美行数:1401069 错误行数:1132621
字数完美率:48.03% 字数错误率:51.96% 总的字数:28374433 完美字数:13628910 错误字数:14745523
5、Ansj ToAnalysis 精准分词:
分词速度:713.39294 字符/毫秒
行数完美率:54.72% 行数错误率:45.27% 总的行数:2533709 完美行数:1386683 错误行数:1147026
字数完美率:44.99% 字数错误率:55.0% 总的字数:28374490 完美字数:12768426 错误字数:15606064
6、Ansj NlpAnalysis NLP分词:
分词速度:195.31975 字符/毫秒
行数完美率:52.66% 行数错误率:47.33% 总的行数:2533709 完美行数:1334314 错误行数:1199395
字数完美率:42.66% 字数错误率:57.33% 总的字数:28374490 完美字数:12105808 错误字数:16268682
7、word分词 双向最大匹配算法:
分词速度:346.91458 字符/毫秒
行数完美率:52.01% 行数错误率:47.98% 总的行数:2533709 完美行数:1317801 错误行数:1215908
字数完美率:42.42% 字数错误率:57.57% 总的字数:28374490 完美字数:12038414 错误字数:16336076
8、FudanNLP:
分词速度:121.48538 字符/毫秒
行数完美率:51.48% 行数错误率:48.51% 总的行数:2533709 完美行数:1304371 错误行数:1229338
字数完美率:43.22% 字数错误率:56.77% 总的字数:28374490 完美字数:12265742 错误字数:16108748
9、Jieba SEARCH:
分词速度:867.4031 字符/毫秒
行数完美率:50.84% 行数错误率:49.15% 总的行数:2533709 完美行数:1288237 错误行数:1245472
字数完美率:41.54% 字数错误率:58.45% 总的字数:28374490 完美字数:11789036 错误字数:16585454
10、Jcseg 复杂模式:
分词速度:394.75354 字符/毫秒
行数完美率:47.96% 行数错误率:52.03% 总的行数:2533709 完美行数:1215171 错误行数:1318538
字数完美率:38.84% 字数错误率:61.15% 总的字数:28374490 完美字数:11021588 错误字数:17352902
11、word分词 双向最小匹配算法:
分词速度:464.64523 字符/毫秒
行数完美率:46.76% 行数错误率:53.23% 总的行数:2533709 完美行数:1185013 错误行数:1348696
字数完美率:36.52% 字数错误率:63.47% 总的字数:28374490 完美字数:10365168 错误字数:18009322
12、word分词 逆向最大匹配算法:
分词速度:718.2688 字符/毫秒
行数完美率:46.72% 行数错误率:53.27% 总的行数:2533709 完美行数:1183913 错误行数:1349796
字数完美率:36.67% 字数错误率:63.32% 总的字数:28374490 完美字数:10407342 错误字数:17967148
13、word分词 正向最大匹配算法:
分词速度:718.0325 字符/毫秒
行数完美率:46.66% 行数错误率:53.33% 总的行数:2533709 完美行数:1182351 错误行数:1351358
字数完美率:36.73% 字数错误率:63.26% 总的字数:28374490 完美字数:10422209 错误字数:17952281
14、Jcseg 简易模式:
分词速度:944.65125 字符/毫秒
行数完美率:44.59% 行数错误率:55.4% 总的行数:2533709 完美行数:1130000 错误行数:1403709
字数完美率:35.78% 字数错误率:64.21% 总的字数:28374490 完美字数:10155059 错误字数:18219431
15、word分词 逆向最小匹配算法:
分词速度:1283.449 字符/毫秒
行数完美率:41.78% 行数错误率:58.21% 总的行数:2533709 完美行数:1058606 错误行数:1475103
字数完美率:31.68% 字数错误率:68.31% 总的字数:28374490 完美字数:8989797 错误字数:19384693
16、Ansj IndexAnalysis 面向索引的分词:
分词速度:720.5671 字符/毫秒
行数完美率:40.66% 行数错误率:59.33% 总的行数:2533709 完美行数:1030336 错误行数:1503373
字数完美率:29.81% 字数错误率:70.18% 总的字数:28374490 完美字数:8459997 错误字数:19914493
17、MMSeg4j ComplexSeg:
分词速度:1645.2795 字符/毫秒
行数完美率:38.81% 行数错误率:61.18% 总的行数:2533688 完美行数:983517 错误行数:1550171
字数完美率:29.6% 字数错误率:70.39% 总的字数:28374428 完美字数:8400089 错误字数:19974339
18、MMSeg4j SimpleSeg:
分词速度:2163.3494 字符/毫秒
行数完美率:37.57% 行数错误率:62.42% 总的行数:2533688 完美行数:951909 错误行数:1581779
字数完美率:28.45% 字数错误率:71.54% 总的字数:28374428 完美字数:8074021 错误字数:20300407
19、IKAnalyzer 智能切分:
分词速度:322.74545 字符/毫秒
行数完美率:37.55% 行数错误率:62.44% 总的行数:2533686 完美行数:951638 错误行数:1582048
字数完美率:27.97% 字数错误率:72.02% 总的字数:28374416 完美字数:7938726 错误字数:20435690
20、word分词 正向最小匹配算法:
分词速度:1377.8706 字符/毫秒
行数完美率:36.85% 行数错误率:63.14% 总的行数:2533709 完美行数:933769 错误行数:1599940
字数完美率:26.85% 字数错误率:73.14% 总的字数:28374490 完美字数:7621334 错误字数:20753156
21、Jieba INDEX:
分词速度:788.70605 字符/毫秒
行数完美率:36.02% 行数错误率:63.97% 总的行数:2533709 完美行数:912771 错误行数:1620938
字数完美率:25.9% 字数错误率:74.09% 总的字数:28374490 完美字数:7351689 错误字数:21022801
22、MMSeg4j MaxWordSeg:
分词速度:1685.1461 字符/毫秒
行数完美率:34.27% 行数错误率:65.72% 总的行数:2533688 完美行数:868440 错误行数:1665248
字数完美率:25.2% 字数错误率:74.79% 总的字数:28374428 完美字数:7152898 错误字数:21221530
23、IKAnalyzer 细粒度切分:
分词速度:334.3131 字符/毫秒
行数完美率:18.87% 行数错误率:81.12% 总的行数:2533686 完美行数:478176 错误行数:2055510
字数完美率:10.93% 字数错误率:89.06% 总的字数:28374416 完美字数:3103178 错误字数:25271238
重点说明:
关于分词速度,这个不是绝对的,每次测试都会有些差距,而完美率是固定的,所以按行数完美类排名
上面的评估报告中没有包括Stanford分词器和Paoding分词器
当前代码已经移除了Paoding分词器,因为Paoding分词器已经7年没有维护了
当前代码升级Stanford分词器到3.5.2,速度慢的无法等待评估完成,仅用于交互式效果对比
下面是之前代码对 Paoding分词器2.0.4-beta 和 Stanford分词器 3.3.1 的评估数据
Stanford Beijing University segmentation:
分词速度:14.4612055 字符/毫秒
行数完美率:58.29% 行数错误率:41.7% 总的行数:2533709 完美行数:1477034 错误行数:1056675
字数完美率:51.36% 字数错误率:48.63% 总的字数:28374490 完美字数:14574120 错误字数:13800370
Stanford Chinese Treebank segmentation:
分词速度:13.723294 字符/毫秒
行数完美率:55.45% 行数错误率:44.54% 总的行数:2533709 完美行数:1404968 错误行数:1128741
字数完美率:47.27% 字数错误率:52.72% 总的字数:28374490 完美字数:13414926 错误字数:14959564
Paoding MAX_WORD_LENGTH_MODE:
分词速度:1343.1075 字符/毫秒
行数完美率:14.19% 行数错误率:85.8% 总的行数:2533158 完美行数:359637 错误行数:2173521
字数完美率:7.72% 字数错误率:92.27% 总的字数:28373102 完美字数:2191349 错误字数:26181753
Paoding MOST_WORDS_MODE:
分词速度:1338.9246 字符/毫秒
行数完美率:11.6% 行数错误率:88.39% 总的行数:2533158 完美行数:294011 错误行数:2239147
字数完美率:5.92% 字数错误率:94.07% 总的字数:28373102 完美字数:1680261 错误字数:26692841
效果对比:
以 我爱楚离陌 为例子:
word分词器 的分词结果:
1 、【全切分算法】 我 爱 楚离陌
2 、【双向最大最小匹配算法】 我 爱 楚离陌
3 、【正向最大匹配算法】 我 爱 楚离陌
4 、【双向最大匹配算法】 我 爱 楚离陌
5 、【逆向最大匹配算法】 我 爱 楚离陌
6 、【正向最小匹配算法】 我 爱 楚离陌
7 、【双向最小匹配算法】 我 爱 楚离陌
8 、【逆向最小匹配算法】 我 爱 楚离陌
Stanford分词器 的分词结果:
1 、【Stanford Chinese Treebank segmentation】 我 爱 楚离陌
2 、【Stanford Beijing University segmentation】 我 爱 楚 离陌
Ansj分词器 的分词结果:
1 、【BaseAnalysis】 我 爱 楚 离 陌
2 、【IndexAnalysis】 我 爱 楚 离 陌
3 、【ToAnalysis】 我 爱 楚 离 陌
4 、【NlpAnalysis】 我 爱 楚离 陌
smartcn分词器 的分词结果:
1 、【smartcn】 我 爱 楚 离 陌
FudanNLP分词器 的分词结果:
1 、【FudanNLP】 我 爱楚离陌
Jieba分词器 的分词结果:
1 、【SEARCH】 我爱楚 离 陌
2 、【INDEX】 我爱楚 离 陌
Jcseg分词器 的分词结果:
1 、【简易模式】 我 爱 楚 离 陌
2 、【复杂模式】 我 爱 楚 离 陌
MMSeg4j分词器 的分词结果:
1 、【SimpleSeg】 我爱 楚 离 陌
2 、【ComplexSeg】 我爱 楚 离 陌
3 、【MaxWordSeg】 我爱 楚 离 陌
IKAnalyzer分词器 的分词结果:
1 、【智能切分】 我 爱 楚 离 陌
2 、【细粒度切分】 我 爱 楚 离 陌
Ordering Disorder
Khoi Vinh / New Riders Press / 2010-12-03 / USD 29.99
The grid has long been an invaluable tool for creating order out of chaos for designers of all kinds—from city planners to architects to typesetters and graphic artists. In recent years, web designers......一起来看看 《Ordering Disorder》 这本书的介绍吧!
CSS 压缩/解压工具
在线压缩/解压 CSS 代码
随机密码生成器
多种字符组合密码
