- 授权协议: BSD
- 开发语言: Python
- 操作系统: 跨平台
- 软件首页: https://github.com/duanhongyi/scseg
- 软件文档: https://github.com/duanhongyi/scseg
软件介绍
scseg中文分词,是基于mmseg的简单分词组件
Feature
- 支持pinyin分词
- 支持用户自定义词典
- 支持单位合并
- 支持汉字数字识别
Install
- pip install scseg
- 通过import scseg来引用
Algorithm
- 采用mmseg算法进行切分
- 采用规则方式支持中文数字分词
功能 1):分词scseg.seg_text方法
- scseg.seg_text函数接受3个参数:
- text参数为需要分词的字符
- ext_dict_words为用户自定义的扩展字典
- use_combine代表是否需要合并处理
代码示例( 全功能分词 )
#encoding=utf-8 import genius seg_list = scseg.seg_text(u'中国人民站起来了pinyin') print '\n'.join(seg_list)
功能 2):面向索引的分词
- scseg.seg_keywords为面向索引的切割方式
- 其作用是枚举出所有可能的切割方式
- text参数为需要分词的字符
代码示例( 全功能分词 )
#encoding=utf-8 import scseg seg_list = scseg.seg_keywords(u'中国人民站起来了pinyin') print '\n'.join(seg_list)
常用算法深入学习实录
张子言 / 电子工业出版社 / 2013-10 / 89.00元
对于任何一门编程语言来说,算法都是程序的“灵魂”。正是因为算法如此重要,所以笔者精心编写了本书,希望通过书中的内容引领广大读者一起探讨学习算法的奥秘,带领广大读者真正步入程序开发的高级世界。 本书共分15章,循序渐进、由浅入深地详细讲解算法的核心内容,并通过具体实例的实现过程演练各个知识点的具体用法。本书首先详细讲解算法的基础知识,剖析了将算法称为“程序灵魂”的原因。然后详细讲解算法技术的核......一起来看看 《常用算法深入学习实录》 这本书的介绍吧!
