中文分词库 Paoding

码农软件 · 软件分类 · 中文分词库 · 2019-08-29 14:12:36

软件介绍

庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。

Paoding's Knives 中文分词具有极 高效率高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。

高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。

采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。

能够对未知的词汇进行合理解析

示例代码:

//生成analyzer实例 
Analyzer analyzer = new PaodingAnalyzer(properties); 
//取得Token流 
TokenStream stream = analyzer.tokenStream("", reader); 

//重置到流的开始位置 
stream.reset(); 

//添加工具类 
TermAttribute termAtt = (TermAttribute) stream.addAttribute(TermAttribute.class); 
OffsetAttribute offAtt = (OffsetAttribute) stream.addAttribute(OffsetAttribute.class); 

//循环打印所有分词及其位置 
while (stream.incrementToken()) {
    System.out.println(termAtt.term() + " " + offAtt.startOffset() + " " + offAtt.endOffset()); 
}

本文地址:https://codercto.com/soft/d/13429.html

社交的本质:扎克伯格的商业秘密

社交的本质:扎克伯格的商业秘密

兰迪•扎克伯格 / 谢天 / 中信出版集团股份有限公司 / 2016-6-1 / CNY 45.00

从发表个人观点到找工作,从交朋友到找伴侣,社会化媒体的广泛应用、互联技术的高速发展已经改变了我们生活的各个领域。 Facebook早期成员之一,兰迪·扎克伯格阐述了社交的本质,并首次披露Facebook的商业策略。她以社交媒体实践者的视角,分享了自己在Facebook负责营销的从业经历与成长故事,以及对互联网和社会未来变化趋势的思考,并给组织和个人提出了解决方案。一起来看看 《社交的本质:扎克伯格的商业秘密》 这本书的介绍吧!

在线进制转换器
在线进制转换器

各进制数互转换器

HTML 编码/解码
HTML 编码/解码

HTML 编码/解码

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码