内容简介:Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口!1,修复时间组合实体识别的bug,有时候会出现错误组合的情况。2,优化NLP模式的时间实体的识别,区分组合时间,例如:"米"实体为"length.m","3米"为"nuc_length.m"。
Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口!
Jcseg 2.4.0更新如下:
1,修复时间组合实体识别的bug,有时候会出现错误组合的情况。
2,优化NLP模式的时间实体的识别,区分组合时间,例如:"米"实体为"length.m","3米"为"nuc_length.m"。
长度单位/null 米/n/length.m ,/w/null 例如/d/null 这/r/null 根/q/null 线/q/null 长/d/null 3米/q/nuc_length.m
3,依据百度的汉语数据修复词条中的部分拼音错误:https://gitee.com/lionsoul/jcseg/commit/4f08a01ea94828e4c4ac585a744b4755f33c8c4b
4,修复中文数字转阿拉伯数字后词条的offset错误。
5,依据百度的汉语数据修复词条中的部分拼音错误:https://gitee.com/lionsoul/jcseg/commit/3de95015056a7ea683c5955faef891fa68af36b5
6,修改Elasticsearch的资源访问为官网建议的安全资源访问形式,意味着es插件不需要再grant privileges。
7,Elasticsearch插件中增加插件级别的单例词库创建接口并且使用安全方式加载词库。
8,修改jcseg-server中的jetty版本为:9.3.24.v20180605
9,jcseg-server.properties配置文件增加自定义host支持,便于外网访问。
10,修复maven编译中的全部javadoc报错。
11,README中增加了jcseg的使用案例和链接,以及微信和QQ沟通账号。
下载地址:
Gitee: https://gitee.com/lionsoul/jcseg/tree/v2.4.0-release
Github: https://github.com/lionsoul2014/jcseg/releases/tag/v2.4.0-release
maven仓库地址:
<dependency> <groupId>org.lionsoul</groupId> <artifactId>jcseg-core</artifactId> <version>2.4.0</version> </dependency>
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- Jcseg 2.2.0 发布,Java 轻量级开源自然语言处理包
- Jcseg 2.3.0 发布,Java 轻量级开源自然语言处理包
- Jcseg 2.4.0 发布,Java 轻量级开源自然语言处理包
- Jcseg 2.5.0 发布,Java 轻量级开源自然语言处理包
- R语言自然语言处理:中文分词
- 自然语言处理中的语言模型预训练方法
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
赢在设计
[美] 洛芙迪 (Lance Loveday)、[美] 尼豪斯 (Sandra Niehaus) / 刘淼、枊靖、王卓昊 / 人民邮电出版社 / 2010-8 / 55.00
企业总是面临在网站设计和改进方面进行投资的抉择。怎样才能让有限的资金发挥出最大的效益呢?网站设计不应只是把网站做得赏心悦目,它更应该是提高经济收益和获得竞争优势的战略利器。是时候让网站发挥其潜能,以业务指标为导向来做设计决策,为提升网站收益而设计了。 作者凭借多年为众多网站做咨询工作的经验,为我们揭示了赢在设计的奥秘。它针对目前网站设计中存在的典型问题,先从宏观上探讨解决问题的战略手段,围绕......一起来看看 《赢在设计》 这本书的介绍吧!