内容简介:Synonyms:中文近义词工具包
Synonyms
Chinese Synonyms for Natural Language Processing and Understanding.
最好的中文近义词 工具 包。
synonyms
可以用于自然语言理解的很多任务:文本对齐,推荐算法,相似度计算,语义偏移,关键字提取,概念提取,自动摘要,搜索引擎等。
Welcome
pip install -U synonyms
兼容py2和py3,当前稳定版本 v2.0。
Samples
Usage
synonyms#nearby
import synonyms print("人脸: %s" % (synonyms.nearby("人脸"))) print("识别: %s" % (synonyms.nearby("识别"))) print("NOT_EXIST: %s" % (synonyms.nearby("NOT_EXIST")))
synonyms.nearby(WORD)
返回一个list,list中包含两项: [[nearby_words], [nearby_words_score]]
, nearby_words
是WORD的近义词们,也以list的方式存储,并且按照距离的长度由近及远排列, nearby_words_score
是 nearby_words
中 对应位置 的词的距离的分数,分数在(0-1)区间内,越接近于1,代表越相近。比如:
synonyms.nearby(人脸) = [ ["图片", "图像", "通过观察", "数字图像", "几何图形", "脸部", "图象", "放大镜", "面孔", "Mii"], [0.597284, 0.580373, 0.568486, 0.535674, 0.531835, 0.530 095, 0.525344, 0.524009, 0.523101, 0.516046]]
在OOV的情况下,返回 [[], []]
,目前的字典大小: 125,792。
synonyms#compare
两个句子的相似度比较
sen1 = "发生历史性变革" sen2 = "发生历史性变革" r = synonyms.compare(sen1, sen2, seg=True)
其中,参数 seg 表示 synonyms.compare是否对sen1 和 sen2进行分词,默认为 True。返回值:[0-1],并且越接近于1代表两个句子越相似。
旗帜引领方向 vs 道路决定命运: 0.429 旗帜引领方向 vs 旗帜指引道路: 0.93 发生历史性变革 vs 发生历史性变革: 1.0
- 句子相似度准确率
在 SentenceSim 上进行测试。
测试语料条数为:7516条. 设定阈值 0.5: 相似度 > 0.5, 返回相似; 相似度 < 0.5, 返回不相似.
评测结果:
正确 : 6626,错误 : 890,准确度 : 88.15%
关于距离计算和阀值选取,参考 enhance Synonyms#compare 。
synonyms#display
以友好的方式打印近义词,方便调试, display
调用了 synonyms#nearby
方法。
>>> synonyms.display("飞机") '飞机'近义词: 1. 架飞机:0.837399 2. 客机:0.764609 3. 直升机:0.762116 4. 民航机:0.750519 5. 航机:0.750116 6. 起飞:0.735736 7. 战机:0.734975 8. 飞行中:0.732649 9. 航空器:0.723945 10. 运输机:0.720578
PCA
Demo
$ pip install -r Requirements.txt $ python demo.py
Data
synonyms/data/words.nearby.x.pklz # compressed pickle object
data is built based on wikidata-corpus .
Benchmark
Test with py3, MacBook Pro.
python benchmark.py
++++++++++ OS Name and version ++++++++++
Platform: Darwin
Kernel: 16.7.0
Architecture: ('64bit', '')
++++++++++ CPU Cores ++++++++++
Cores: 4
CPU Load: 60
++++++++++ System Memory ++++++++++
meminfo 8GB
synonyms#nearby: 100000 loops, best of 3 epochs: 0.209 usec per loop
Statement
Synonyms 发布证书 GPL 3.0。数据和程序可用于研究和商业产品,必须注明引用和地址,比如发布的任何媒体、期刊、杂志或博客等内容。
@online{Synonyms:hain2017, author = {Hai Liang Wang, Hu Ying Xi}, title = {中文近义词工具包Synonyms}, year = 2017, url = {https://github.com/huyingxi/Synonyms}, urldate = {2017-09-27} }
任何基于 Synonyms 衍生的数据和项目也需要开放并需要声明一致的“声明”。
References
Authors
Give credits to
License
以上所述就是小编给大家介绍的《Synonyms:中文近义词工具包》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- Java工具包:资源访问器
- AopLog 2.4 发布,日志工具包
- TensorFlow 模型优化工具包正式推出
- [Nuget]使用Nuget管理工具包
- 使用抗灾能力入门工具包构建一个应用
- NSudo 8.2 发布,系统管理工具包
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
区块链技术驱动金融
阿尔文德·纳拉亚南、约什·贝努、爱德华·费尔顿、安德鲁·米勒、史蒂文·戈德费德 / 林华、王勇 / 中信出版社,中信出版集团 / 2016-8-25 / CNY 79.00
从数字货币及智能合约技术层面,解读了区块链技术在金融领域的运用。“如果你正在寻找一本在技术层面解释比特币是如何运作的,并且你有一定计算机科学和编程的基本知识,这本书应该很适合你。” 《区块链:技术驱动金融》回答了一系列关于比特币如何运用区块链技术运作的问题,并且着重讲述了各种技术功能,以及未来会形成的网络。比特币是如何运作的?它因何而与众不同?你的比特币安全吗?比特币用户如何匿名?区块链如何......一起来看看 《区块链技术驱动金融》 这本书的介绍吧!