内容简介:FoolNLTK之前发布了分词等功能,但很多场景需要自定义模型,现发布训练代码,只需要准备好训练数据,其他交给工具完成。 另外修改了之前用户词典合并局部出现的 Bug。 提供训练和模型调用接口详情查看项目地址。 ...
FoolNLTK之前发布了分词等功能,但很多场景需要自定义模型,现发布训练代码,只需要准备好训练数据,其他交给 工具 完成。
另外修改了之前用户词典合并局部出现的 Bug。
提供训练和模型调用接口详情查看项目地址。
FoolNLTK是一款中文处理工具包
特点
可能不是最快的开源中文分词,但很可能是最准的开源中文分词
基于BiLSTM模型训练而成
包含分词,词性标注,实体识别, 都有比较高的准确率
用户自定义词典
可训练自己的模型
用户自定义词典
词典格式格式如下,词的权重越高,词的长度越长就越越可能出现, 权重值请大于1
难受香菇 10 什么鬼 10 分词工具 10 北京 10 北京天安门 10
加载词典
import fool fool.load_userdict(path) text = "我在北京天安门看你难受香菇" print(fool.cut(text)) # ['我', '在', '北京天安门', '看', '你', '难受香菇']
删除词典
fool.delete_userdict();
词性标注
import fool text = "一个傻子在北京" print(fool.pos_cut(text)) #[('一个', 'm'), ('傻子', 'n'), ('在', 'p'), ('北京', 'ns')]
实体识别
import fool text = "一个傻子在北京" words, ners = fool.analysis(text) print(ners) #[(5, 8, 'location', '北京')]
【声明】文章转载自:开源中国社区 [http://www.oschina.net]
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 也谈 Python 的中文编码处理
- 自然语言处理之中文自动分词
- R语言自然语言处理:中文分词
- 中文自然语言处理数据集:ChineseNLPCorpus
- SnowNLP情感分析使用教程(中文文本处理库)
- FoolNLTK 发布 Java 版,基于深度学习的中文文本处理工具
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
JavaScript DOM高级程序设计
Jeffrey Sambells、Aaron Gustafson / 李松峰、李雅雯 / 人民邮电出版社 / 2008-7 / 59.00元
本书注重理论与实践的结合,全面讲述高级的DOM 脚本编程。全书分为3 个部分:第一部分“深入理解DOM 脚本编程”,涉及W3C DOM 规范的各方面,包括非标准的浏览器支持和不支持的内容;第二部分“浏览器外部通信”,以Ajax 和客户端—服务器端通信为主题;第三部分“部分高级脚本编程资源”,集中介绍了一批第三方脚本编程资源,包括库和API。同时,每部分的最后一章都为案例研究,将学到的内容应用于实践......一起来看看 《JavaScript DOM高级程序设计》 这本书的介绍吧!