内容简介:Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的l...
Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口!
Jcseg 2.2.0更新内容如下:
检索模式SearchSeg增加粒度控制,切分单字,例如:”人民币“切分为”人,民,币,人民,人民币“。
同义词统一解决方案:同义词单独管理,同义词之间自动相互引用,同义词追加和自动合并(REAMD中增加了详细的同义词说明文档)。
单个词条多实体支持,词条的实体可以定义多个,IWord#Entity变为数组。
NLP切分优化,修复datetime,time实体识别和其他部分bug。
词库优化。
关于同义词:
同义词具体格式参考码云项目下的vendors/lexicons/lex-synonyms.lex
在词库的第一行增加CJK_SYN,定义其为同义词词库即可,可以建立多个。
1,基本格式如下:
词根,同义词1[/可选拼音],同义词2[/可选拼音],...同义词n[/可选拼音]
例如:
研究,研讨,研发,研磨/yan mo
2,同义词要求:
01),第一个词条为词根,这个词条必须是CJK_WORD词库中已有的词条
02),其他同义词可以不用存在,jcseg会自动将其加入词库,并且词条之间相互引用同义词
03),同义词会继承词根的词性和实体定义,也会继承本词条的拼音(如果该词条存在),也可以在其后自定义拼音。
该版本已经在自己的NLP平台中稳定运行3个月+,稳定性已经经过压测,NLP需求的重点升级!
最新版本下载地址:
1,大码云:http://git.oschina.net/lionsoul/jcseg/tree/v2.2.0-release
2,github:https://github.com/lionsoul2014/jcseg/releases/tag/v2.2.0-release
3,maven仓库
【声明】文章转载自:开源中国社区 [http://www.oschina.net]
以上所述就是小编给大家介绍的《Jcseg 2.2.0 发布,Java 轻量级开源自然语言处理包》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- Jcseg 2.3.0 发布,Java 轻量级开源自然语言处理包
- Jcseg 2.4.0 发布,Java 轻量级开源自然语言处理包
- Jcseg 2.4.0 发布,Java 轻量级开源自然语言处理包
- Jcseg 2.5.0 发布,Java 轻量级开源自然语言处理包
- R语言自然语言处理:中文分词
- 自然语言处理中的语言模型预训练方法
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
数字化生存
(美)Nicholas Negroponte(尼古拉·尼葛洛庞帝) / 胡泳、范海燕 / 电子工业出版社 / 2017-1-1 / 68.00
《数字化生存》描绘了数字科技为我们的生活、工作、教育和娱乐带来的各种冲击和其中值得深思的问题,是跨入数字化新世界的*指南。英文版曾高居《纽约时报》畅销书排行榜。 “信息的DNA”正在迅速取代原子而成为人类生活中的基本交换物。尼葛洛庞帝向我们展示出这一变化的巨大影响。电视机与计算机屏幕的差别变得只是大小不同而已。从前所说的“大众”传媒正演变成个人化的双向交流。信息不再被“推给”消费者,相反,人们或他......一起来看看 《数字化生存》 这本书的介绍吧!