Python 中文分词库 snailseg

码农软件 · 软件分类 · 中文分词库 · 2019-08-29 09:12:37

软件介绍

snailseg

Chinese Words Segment Library in Python 简单的中文分词库

在线分词效果展示 https://snailsegdemo.appspot.com/

Usage

  • 将snailseg目录放置于当前目录或者site-packages目录
  • import snailseg

代码示例

import snailseg
words = snailseg.cut("南京市长江大桥")
for w in words:
    print w

Algorithm

  • 算法是统计单字在词语中出现位置的概率大小,选择最大可能的分词方案
  • 算法简单,只有100行纯Python代码

Performance

  • 700 KB/Second
  • Test Env: Intel(R) Core(TM) i7-2600 CPU @ 3.4GHz;《围城》.txt

Example

Sentences:

cuttest("这是一个伸手不见五指的黑夜。我叫孙悟空,我爱北京,我爱Python和C++。")
cuttest("我不喜欢日本和服")
cuttest("雷猴回归人间")
cuttest("工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作")
cuttest("我需要廉租房")
cuttest("永和服装饰品有限公司")
cuttest("我爱北京天安门")
cuttest("abc")
cuttest("隐马尔可夫")
cuttest("雷猴是个好网站")
cuttest("“Microsoft”一词由“MICROcomputer(微型计算机)”和“SOFTware(软件)”两部分组成")
cuttest("草泥马和欺实马是今年的流行词汇")
cuttest("伊藤洋华堂总府店")
cuttest("中国科学院计算技术研究所")
cuttest("罗密欧与朱丽叶  Hahaha")
cuttest("新生小鼠中肌红蛋白含量较成年鼠高吗?")
cuttest("南京市长江大桥")
cuttest("乒乓球拍卖完了")
cuttest("大")
cuttest("")

Efect:

这是 / 一个 / 伸手 / 不见 / 五指 / 的 / 黑夜 / 我 / 叫 / 孙悟空 / 我爱 / 北京 /
我爱 / Python / 和 / C++ /
我 / 不 / 喜欢 / 日本 / 和服 /
雷 / 猴 / 回归 / 人间 /
工信处 / 女 / 干事 / 每月 / 经过 / 下属 / 科室 / 都 / 要 / 亲口 / 交代 / 24 / 口
 / 交换机 / 等 / 技术性 / 器件 / 的 / 安装 / 工作 /
我 / 需要 / 廉租 / 房 /
永和 / 服装 / 饰品 / 有限 / 公司 /
我爱 / 北京 / 天安 / 门 /
abc /
隐 / 马尔 / 可夫 /
雷 / 猴 / 是 / 个 / 好网 / 站 /
Microsoft / 一 / 词 / 由 / MICROcomputer / 微型 / 计算机 / 和 / SOFTware / 软件
/ 两部 / 分组 / 成 /
草泥马 / 和 / 欺 / 实 / 马 / 是 / 今年 / 的 / 流行 / 词汇 /
伊藤 / 洋华堂 / 总府 / 店 /
中国 / 科学院 / 计算 / 技术 / 研究 / 所 /
罗密 / 欧 / 与 / 朱丽 / 叶 / Hahaha /
新生 / 小鼠 / 中 / 肌 / 红蛋 / 白 / 含量 / 较 / 成年 / 鼠 / 高 / 吗 /
南京市 / 长江 / 大桥 /
乒乓 / 球拍 / 卖 / 完了 /
大 /

本文地址:https://codercto.com/soft/d/13409.html

九败一胜

九败一胜

李志刚 / 北京联合出版公司 / 2014-9-1 / 42.00元

所有的创业者都面临着很多问题,困惑不是个人的,是有共性的。 除了自身去摸索着石头走路,他们还可以通过学习,从那些在创业路上走得更远的创业者身上学到经验、教训。 这本书的主角——王兴,恰好就是一个很好的学习对象。出生于1979年的王兴,很早就创业了,2004他就开始和同学一块创业,2005年做出了校内网;2007年,他又做出了饭否网——这是中国最早的类似twitter的网站。 ......一起来看看 《九败一胜》 这本书的介绍吧!

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换