处理中文字词的函数库 NChinese

码农软件 · 软件分类 · 中文分词库 · 2019-08-28 16:41:53

软件介绍

NChinese 是一套用來處理中文字詞的函式庫,使用 C# 和 C 编写。目前具備的功能,主要是反查一串中文字的注音或拼音。

安裝

使用 Nuget 套件管理員來安裝,或執行下列命令:

Install-Package NChinese -Version 0.3.3
Install-Package NChinese.Imm -Version 0.3.3

簡介

NChinese 包含兩個套件:

  • NChinese - 包含內建中文注音詞庫與相關 API,例如反查一串中文字的注音字根。

  • NChinese.Imm - 此套件會用到 Windows 底層的 Imm.dll 與 IFELanguage COM API,所以只適用於 Windows 作業環境。

兩個套件都有提供反查注音字根的函式,但由於 NChinese.Imm 只能運行於 Windows 環境,故建議盡量使用 NChinese。

範例:反查注音字根

using NChinese;

// 取得一串中文字的注音字根
var zhuyinProvicer = new ZhuyinReverseConversionProvider();
string[] zhuyinArray = zhuyinProvicer.Convert("便宜又方便得不得了");

foreach (var s in zhuyinArray)
    Console.Write($"{s} ");

執行結果:

ㄆㄧㄢˊ "ㄧˊ ㄧㄡˋ ㄈㄤ ㄅㄧㄢˋ ㄉㄜ˙ ㄅㄨˋ ㄉㄜˊ ㄌㄧㄠˇ

中文詞庫與注音字根的資料,是以 libchewing 的檔案(tsi.src)為藍本,再經過工具加工之後所產生的。所以透過上述方法所取得的注音字根,在讀音方面比較符合台灣的發音習慣。

範例:反查拚音字根

如果要取得拼音字根,目前可以用的是 ImmPinyinReverseConversionProvider。此類別與上例的 ZhuyinReverseConversionProvider 都實作了  IReverseConversionProvider,故用法雷同。如下:

using NChinese.Imm;

// 取得一串中文字的拼音字根
var pinyinProvicer = new ImmPinyinReverseConversionProvider();
string[] pinyininArray = zhuyinProvicer.Convert("便宜又方便得不得了");

foreach (var s in zhuyinArray)
    Console.Write($"{s} ");

執行結果:

pián yi yòu fāng biàn de bù dé liǎo

如果仔細比較,就可以發現此範例所取得的拼音,和上一個範例所取得的注音,在讀音方面有小差異:「便宜」的「宜」,在拼音裡面是讀作輕聲,而注音則是二聲。

另外要注意的是,用來取得拼音字根的 ImmPinyinReverseConversionProvider 是隸屬於 NChinese.Imm 套件。此類別是利用 IFELanguage COM API 來取得注音字根,所以只能運行於 Windows 作業環境。

NChinese.Imm 套件裡面還有一個 ImmZhuyinReverseConversionProvider,用途跟 NChinese.ZhuyinReverseConversionProvider一樣是反查注音字根,但是它在內部實作上,其實是先用 ImmPinyinReverseConversionProvider 取得拼音字根,然後再使用 PinyinToZhuyin 類別來把拼音轉換成注音符號。

本文地址:https://codercto.com/soft/d/13367.html

付费:互联网知识经济的兴起

付费:互联网知识经济的兴起

方军 / 机械工业出版社 / 2017-6-1 / CNY 59.00

关于互联网知识付费的首部作品 知识工作正在被重塑,知识经济正在开启互联网时代下半场 为你展现互联网知识经济全景大图,解读新物种的前世今生 内容简介 一个产业解读 三个分析工具 一组知识卡片 书是最早的知识载体,已有2000多年的付费历史,随着移动互联网的普及,新的知识经 济在今天爆发,知识的创造者和传播者从书后走到了书前,互联网知识经济正在拉开帷幕。知识的......一起来看看 《付费:互联网知识经济的兴起》 这本书的介绍吧!

在线进制转换器
在线进制转换器

各进制数互转换器

随机密码生成器
随机密码生成器

多种字符组合密码

URL 编码/解码
URL 编码/解码

URL 编码/解码