.NET 中文分词组件 CWSharp

码农软件 · 软件分类 · 中文分词库 · 2019-08-28 20:41:49

软件介绍

CWSharp 是 .Net 的中文分词组件,支持中英文或者混合词组,提供自定义词典功能,支持Lucene.Net。

特性

  • 支持多种分词器

    • StandardTokenizer

    • BigramTokenizer

    • StopwordTokenizer

  • 可扩展的自定义分词接口

  • 支持自定义词典

  • 支持Lucene.Net分词

  • MIT授权协议

安装&编译

  • NuGet

nuget install CWSharp
  • Package Manager Console

PM> install-package CWSharp

算法

  • 基于正向最大匹配的算法。介绍

  • 词典使用DAWG结构,比传统的前缀树占用更少的内存空间。介绍

TODO

  • HMM算法,识别未登记词语以及人名、地名识别

  • 支持跨平台Windows、Linux

FAQ

  • 词典 - 如何生成DAWG词典文件,如何添加新的词组到DAWG词典中。

  • lucene.net插件 - Lucene.Net分词接口

本文地址:https://codercto.com/soft/d/13383.html

C语言入门经典

C语言入门经典

霍顿 (Ivor Horton) / 清华大学出版社 / 2008-4-1 / 69.80元

本书是编程语言先驱者Ivor Horton的经典之作,是C语言方面最畅销的图书品种之一。本书集综合性、实用性为一体,是学习C语言的优秀入门教材,在世界范围内广受欢迎,口碑极佳。书中除了讲解C程序设计语言,还广泛介绍了作为一名C程序设计人员应该掌握的必要知识,并提供了大量的实用性很强的编程实例。本书的目标是使你在C语言程序设计方面由一位初学者成为一位称职的程序员。读者基本不需要具备任何编程知识,即可......一起来看看 《C语言入门经典》 这本书的介绍吧!

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

URL 编码/解码
URL 编码/解码

URL 编码/解码