vicword 1.4 发布,PHP 中文分词库

栏目: 软件资讯 · 发布时间: 4年前

内容简介:VicWord 一个纯php的分词 主要更新: 1. 添加默认词库路径 2. 词库不存在返回false,改为抛出异常。 码云地址: https://gitee.com/jitog/phpfenci github: https://github.com/lizhichao/VicWord 分词说明 含有3...

VicWord 一个纯 php 的分词

主要更新:
    1. 添加默认词库路径
    2. 词库不存在返回false,改为抛出异常。

码云地址: https://gitee.com/jitog/phpfenci
github:  https://github.com/lizhichao/VicWord

分词说明
    含有3种切分方法
    getWord 长度优先切分 。最快
    getShortWord 细粒度切分。比最快慢一点点
    getAutoWord 自动切分 。效果最好

三种分词结果对比

    $fc = new VicWord('igb');
    $arr = $fc->getWord('北京大学生喝进口红酒,在北京大学生活区喝进口红酒');
    //北京大学|生喝|进口|红酒|,|在|北京大学|生活区|喝|进口|红酒
    //$arr 是一个数组 每个单元的结构[词语,词语位置,词性,这个词语是否包含在词典中] 这里只值列出了词语

    $arr =  $fc->getShortWord('北京大学生喝进口红酒,在北京大学生活区喝进口红酒');
    //北京|大学|生喝|进口|红酒|,|在|北京|大学|生活|区喝|进口|红酒

    $arr = $fc->getAutoWord('北京大学生喝进口红酒,在北京大学生活区喝进口红酒');
    //北京|大学生|喝|进口|红酒|,|在|北京大学|生活区|喝|进口|红酒

    //对比
    //qq的分词 http://nlp.qq.com/semantic.cgi#page2 
    //百度的分词 http://ai.baidu.com/tech/nlp/lexical

分词速度
    机器阿里云 Intel(R) Xeon(R) Platinum 8163 CPU @ 2.50GHz
    getWord 每秒140w字
    getShortWord 每秒138w字
    getAutoWord 每秒40w字
    测试文本在百度百科拷贝的一段5000字的文本


以上所述就是小编给大家介绍的《vicword 1.4 发布,PHP 中文分词库》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

失控的未来

失控的未来

[美]约翰·C·黑文斯 / 仝琳 / 中信出版集团 / 2017-4-1 / 59.00元

【编辑推荐】 20年前,尼古拉•尼葛洛庞帝的《数字化生存》描绘了数字科技给人们的工作、生活、教育和娱乐带来的冲击和各种值得思考的问题。数字化生存是一种社会生存状态,即以数字化形式显现的存在状态。20年后,本书以一种畅想的形式,展望了未来智能机器人与人类工作、生活紧密相联的场景。作者尤其对智能机器人与人类的关系,通过假设的场景进行了大胆有趣的描述,提出了人工智能的未来可能会面临的一些问题。黑文......一起来看看 《失控的未来》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

随机密码生成器
随机密码生成器

多种字符组合密码

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具