Python中文分词 scseg

码农软件 · 软件分类 · 中文分词库 · 2019-08-29 06:57:37

软件介绍

scseg中文分词,是基于mmseg的简单分词组件

Feature

  • 支持pinyin分词
  • 支持用户自定义词典
  • 支持单位合并
  • 支持汉字数字识别

Install

  • pip install scseg
  • 通过import scseg来引用

Algorithm

  • 采用mmseg算法进行切分
  • 采用规则方式支持中文数字分词

功能 1):分词scseg.seg_text方法

  • scseg.seg_text函数接受3个参数:
  • text参数为需要分词的字符
  • ext_dict_words为用户自定义的扩展字典
  • use_combine代表是否需要合并处理

代码示例( 全功能分词 )

#encoding=utf-8
import genius

seg_list = scseg.seg_text(u'中国人民站起来了pinyin')
print '\n'.join(seg_list)

功能 2):面向索引的分词

  • scseg.seg_keywords为面向索引的切割方式
  • 其作用是枚举出所有可能的切割方式
  • text参数为需要分词的字符

代码示例( 全功能分词 )

#encoding=utf-8
import scseg

seg_list = scseg.seg_keywords(u'中国人民站起来了pinyin')
print '\n'.join(seg_list)

本文地址:https://codercto.com/soft/d/13400.html

算法与数据结构

算法与数据结构

张乃孝 / 高等教育出版社 / 2006-1 / 31.00元

《算法与数据结构:C语言描述(第2版)》以数据结构为主线,算法为辅线组织教学内容。全书共分10章:绪论、线性表、字符串、栈与队列、二叉树与树、集合与字典、高级字典结构、排序、图和算法分析与设计。《算法与数据结构:C语言描述(第2版)》体系完整,概念清楚,内容充实,取材适当。第一版被列入“面向21世纪课程教材”,2004年被评为“北京市高等教育精品教材”,第二版被列入普通高等教育“十一五”国家级规划......一起来看看 《算法与数据结构》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

HTML 编码/解码
HTML 编码/解码

HTML 编码/解码

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器