- 授权协议: Apache
- 开发语言: Java
- 操作系统: 跨平台
- 软件首页: http://code.google.com/p/paoding/
- 软件文档: http://code.google.com/p/paoding/w/list
软件介绍
庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。
Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。
高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。
采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。
能够对未知的词汇进行合理解析
示例代码:
//生成analyzer实例
Analyzer analyzer = new PaodingAnalyzer(properties);
//取得Token流
TokenStream stream = analyzer.tokenStream("", reader);
//重置到流的开始位置
stream.reset();
//添加工具类
TermAttribute termAtt = (TermAttribute) stream.addAttribute(TermAttribute.class);
OffsetAttribute offAtt = (OffsetAttribute) stream.addAttribute(OffsetAttribute.class);
//循环打印所有分词及其位置
while (stream.incrementToken()) {
System.out.println(termAtt.term() + " " + offAtt.startOffset() + " " + offAtt.endOffset());
}
信息检索导论
Christopher D.Manning、Hinrich Schütze、Prabhakar Raghavan / 王斌 / 人民邮电出版社 / 201008 / 69.00元
封面图片为英国伯明翰塞尔福瑞吉百货大楼,其极具线条感的轮廓外型优美,犹如水波的流动。其外表悬挂了1.5万个铝碟,创造出一种极具现代气息的纹理装饰效果,有如夜空下水流的波光粼粼,闪烁于月光之下,使建筑的商业氛围表现到极致。设计该建筑的英国“未来系统建筑事物所”,将商场内部围合成一个顶部采光的中庭,配以交叉的自动扶梯,使购物环境呈现出一种凝聚的向心力和商业广告的展示效应。作为英国第二商业城市伯明翰的建......一起来看看 《信息检索导论》 这本书的介绍吧!
