go中文分词包 cwsharp-go

码农软件 · 软件分类 · 中文分词库 · 2019-08-28 20:26:38

授权协议: MIT
开发语言: Google Go
操作系统: 跨平台
软件首页: https://github.com/zhengchun/cwsharp-go
软件文档: https://github.com/zhengchun/cwsharp-go

软件介绍

cwsharp-go

cwsharp-go是golang的文本分词包，支持中文、英文以及中英混合词组，除此之外，提供自定义分词的扩展（比如日文、韩文或其它语种）。

安装&测试

$ go get github.com/zhengchun/cwsharp-go
$ cd main
$ go run main.go Hello,World!你好，世界!

分词算法

cwsharp-go支持多种分词算法，你可以根据需求选择适合自己的或者自定义新的分词算法。

mmseg-tokenizer

标准的基于词典的分词方法。

tips: 建议使用单一实例，避免每次分词都需重新加载字典

tokenizer, err := cwsharp.New("../data/cwsharp.dawg") //加载字典
iter := tokenizer.Tokenize(strings.NewReader("Hello,world!你好,世界!"))
for tok, ok := iter(); ok; tok, ok = iter() {
    fmt.Printf("%s/%s ", tok.Text, tok.Type)
}
>> hello/w ,/p world/w !/p 你好/w ,/p 世界/w !/p

bigram-tokenizer

二元分词方法，无需字典，速度快，支持完整的英文和数字切分。

iter := cwsharp.BigramTokenize(strings.NewReader("世界人民大团结万岁!"))
for token, ok := iter(); ok; token, ok = iter() {
    fmt.Printf("%s/%s ", token.Text, token.Type)
}
>> 世界/w 界人/w 人民/w 民大/w 大团/w 团结/w 结万/w 万岁/w !/p

whitespace-tokenizer

标准的英文分词，无需字典，适合切分英文的内容，中文会被当做独立的字符输出。

iter := cwsharp.WhitespaceTokenize(strings.NewReader("Hello,world!你好!"))
for token, ok := iter(); ok; token, ok = iter() {
    fmt.Printf("%s/%s ", token.Text, token.Type)
}
>> hello/w ,/p world/w !/p 你/w 好/w !/p

TokenizerFunc

TokenizerFunc是自定义分词的扩展接口帮助类，允许你自定义新的分词。

type TokenizerFunc func(io.Reader) Iterator

本文地址：https://codercto.com/soft/d/13382.html

码农书籍

计算机组成（第 6 版）

Andrew S. Tanenbaum、Todd Austin / 刘卫东、宋佳兴 / 机械工业出版社 / 2014-8-19 / CNY 99.00

本书采用结构化方法来介绍计算机系统，书的内容完全建立在“计算机是由层次结构组成的，每层完成规定的功能”这一概念之上。作者对本版进行了彻底的更新，以反映当今最重要的计算机技术以及计算机组成和体系结构方面的最新进展。书中详细讨论了数字逻辑层、微体系结构层、指令系统层、操作系统层和汇编语言层，并涵盖了并行体系结构的内容，而且每一章结尾都配有丰富的习题。本书适合作为计算机专业本科生计算机组成与结构课程的教......一起来看看《计算机组成（第 6 版）》这本书的介绍吧!

码农工具