Python 中文分词库 Yaha

码农软件 · 软件分类 · 中文分词库 · 2019-08-29 07:27:22

软件介绍

"哑哈"中文分词,更快或更准确,由你来定义。通过简单定制,让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha

基本功能:

  • 精确模式,将句子切成最合理的词。
  • 全模式,所有的可能词都被切成词,不消除歧义。
  • 搜索引擎模式,在精确的基础上再次驿长词进行切分,提高召回率,适合搜索引擎创建索引。
  • 备选路径,可生成最好的多条切词路径,可在此基础上根据其它信息得到更精确的分词模式。

可用插件:

  • 正则表达式插件
  • 人名前缀插件
  • 地名后缀插件
  • 定制功能。分词过程产生4种阶段,每个阶段都可以加入个人的定制。

附加功能:

  • 新词学习功能。通过输入大段文字,学习到此内容产生的新老词语。
  • 获取大段文本的关键字。
  • 获取大段文本的摘要。
  • 支持用户自定义词典

Algorithm

  • 核心是基于查找句子的最大概率路径来进行分词。
  • 保证效率的基础上,对分词的各个阶段进行定义,方便用户添加属于自己的分词方法(默认有正则,前缀名字与后缀地名)。
  • 用户可自定义使用动态规划或Dijdstra算法得到最优的一条或多条路径,再次可根据词性(中科大ictclas的作法)等其它信息得获得最优路径。
  • 使用“最大熵”算法来实现对大文本的新词发现能力,很适合使用它来创建自定义词典,或在SNS等场合进行数据挖掘的工作。
  • 相比已存在的结巴分词,去掉了很消耗内存的Trie树结构,以及新词发现能力并不强的HMM模型(未来此模型可能当成一个备选插件加入到此模块)。

目前状态

以上提到的核心部分以及基础功能都已得到实现。不过一些细节正在实现当中,目前还未发布版本。 一些片段的代码可以从我的代码分享得到:http://www.oschina.net/code/list_by_user?id=1180874

本文地址:https://codercto.com/soft/d/13402.html

Writing Windows VxDs and Device Drivers, Second Edition

Writing Windows VxDs and Device Drivers, Second Edition

Karen Hazzah / CMP / 1996-01-12 / USD 54.95

Software developer and author Karen Hazzah expands her original treatise on device drivers in the second edition of "Writing Windows VxDs and Device Drivers." The book and companion disk include the a......一起来看看 《Writing Windows VxDs and Device Drivers, Second Edition》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

随机密码生成器
随机密码生成器

多种字符组合密码

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换