- 授权协议: GPL
- 开发语言: PHP
- 操作系统: 跨平台
- 软件首页: https://github.com/Callwoola/php-split
- 软件文档: https://github.com/Callwoola/php-split
软件介绍
phpSplit 是一个基于php开发的中文分词库。
居于Unicode编码词典的php分词器
只适用于php5,必要函数 iconv
本程序是使用RMM逆向匹配算法进行分词的,词库需要特别编译,本类里提供了 MakeDict() 方法
简单操作流程: SetSource -> StartAnalysis -> GetResult
对主词典使用特殊格式进行编码, 不需要载入词典到内存操作
使用
首先 确保使用php为5.3+
安装composer
composer install
require __DIR__ .'/vendor/autoload.php';
$split = new Split();
var_dump( $split->simple("您好 phpSplit"));
$this->assertTrue(True);array(3) {
[0] =>
string(0) ""
[1] =>
string(6) "您好"
[2] =>
string(8) "phpSplit"
}分词结果后缀说明
名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w
同事增加了以下3类标记 *专有名词的分类标记,即人名nr,地名ns,团体机关单位名称nt,其他专有名词nz; *语素的子类标记,即名语素Ng,动语素Vg,形容语素Ag,时语素Tg,副语素Dg等; *动词和形容词的子类标记,即名动词vn(具有名词特性的动词),名形词an(具有名词特性的形容词),副动词vd(具有副词特性的动词),副形词ad(具有副词特性的形容词)
合计约40个左右。
欢迎大家完善
一本书读懂24种互联网思维
安杰 / 台海出版社 / 2015-3-1 / 39.80元
互联网思维已经不再局限于互联网,与当初人类史上的“文艺复兴”一样,这种思维的核心即将开始扩散开去,对整个大时代造成深远的影响。本书是深入研究互联网思维的精华之作,作者深入浅出地集中阐述了24种互联网思维的内核与精神,并结合实例对这24种互联网思维逐一进行了点评。对于个人与企业如何抓住互联网思维背后正喷薄而出的工作、生活、商业上的大革新与大机遇,如何在互联网思维下进行运作,如何运用互联网思维进行升级......一起来看看 《一本书读懂24种互联网思维》 这本书的介绍吧!
