准确率创新高,北大开源中文分词工具包 pkuseg

栏目: IT资讯 · 发布时间: 6年前

内容简介:北京大学近日开源了一个全新的中文分词工具包 pkuseg ,相比于现有的同类开源工具,pkuseg 大幅提高了分词的准确率。 pkuseg 由北大语言计算与机器学习研究组研制推出,具备如下特性: 高分词准确率。相比于其他的...

北京大学近日开源了一个全新的中文分词 工具 包 pkuseg ,相比于现有的同类开源工具,pkuseg 大幅提高了分词的准确率。

pkuseg 由北大语言计算与机器学习研究组研制推出,具备如下特性:

  1. 高分词准确率。相比于其他的分词工具包,pkuseg 在不同领域的数据上都大幅提高了分词的准确度。根据项目文档给出的测试结果,pkuseg 分别在示例数据集( MSRA 和 CTB8 )上降低了 79.33% 和 63.67% 的分词错误率。

  2. 多领域分词。研究组训练了多种不同领域的分词模型。根据待分词的领域特点,用户可以自由地选择不同的模型。

  3. 支持用户自训练模型。支持用户使用全新的标注数据进行训练。

性能对比

Linux 环境下,各工具在新闻数据 (MSRA) 和混合型文本 (CTB8) 数据上的准确率测试情况如下:

准确率创新高,北大开源中文分词工具包 pkuseg

预训练模型

分词模式下,用户需要加载预训练好的模型。我们提供了三种在不同类型数据上训练得到的模型,根据具体需要,用户可以选择不同的预训练模型。以下是对预训练模型的说明:

MSRA : 在 MSRA(新闻语料)上训练的模型。新版本代码采用的是此模型。下载地址

CTB8 : 在 CTB8(新闻文本及网络文本的混合型语料)上训练的模型。下载地址

WEIBO : 在微博(网络文本语料)上训练的模型。下载地址

更多详情可查阅项目仓库


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Paradigms of Artificial Intelligence Programming

Paradigms of Artificial Intelligence Programming

Peter Norvig / Morgan Kaufmann / 1991-10-01 / USD 77.95

Paradigms of AI Programming is the first text to teach advanced Common Lisp techniques in the context of building major AI systems. By reconstructing authentic, complex AI programs using state-of-the-......一起来看看 《Paradigms of Artificial Intelligence Programming》 这本书的介绍吧!

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

SHA 加密
SHA 加密

SHA 加密工具

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具