基于深度学习的分词系统 kcws

码农软件 · 软件分类 · 中文分词库 · 2019-08-28 18:13:28

软件介绍

这是一个基于深度学习的分词系统和语料项目。

背景

97.5%准确率的深度学习中文分词(字嵌入+Bi-LSTM+CRF)

构建

  1. 安装好bazel代码构建工具,clone下来tensorflow项目代码,配置好(./configure)

  2. clone 本项目地址到tensorflow同级目录,切换到本项目代码目录,运行./configure

  3. 编译后台服务

bazel build //kcws/cc:seg_backend_api

训练

1. 关注“待字闺中”公众号 回复 kcws 获取语料下载地址

2. 解压语料到一个目录

3. 切换到代码目录,运行:

pyton kcws/train/process_anno_file <语料目录> chars_for_w2v.txt
使用word2vec 训练 chars_for_w2v (注意-binary 0),得到字嵌入结果vec.txt
bazel build kcws/train:generate_training
./bazel-bin/kcws/train/generate_training vec.txt <语料目录> all.txt
python kcws/train/filter_sentence.py all.txt (得到train.txt , test.txt)

4. 安装好tensorflow,切换到kcws代码目录,运行:

python kcws/train/train_cws_lstm.py --word2vec_path vec.txt --train_data_path <绝对路径到train.txt> --test_data_path test.txt --max_sentence_len 80 --learning_rate 0.001

demo

http://45.32.100.248:9090/

本文地址:https://codercto.com/soft/d/13373.html

IT不再重要

IT不再重要

(美)尼古拉斯·卡尔 / 闫鲜宁 / 中信出版社 / 2008-10 / 29.00元

在这部跨越历史、经济和技术领域的著作中,作者从廉价的电力运营方式对社会变革的深刻影响延伸到互联网对我们生活的这个世界的重构性影响。他批判式的认为,企业想应用网络或应用程序,不再需要自建资料中心、自组IT团队维护和管理系统,因为互联网就像自来水或电力一样,可由专门公司提供服务,你可以付费使用。而如果他的设想真的会实现,我们的世界将会变成什么样子?IT产业的命运又将如何?这又对企业的IT领域投资产生什......一起来看看 《IT不再重要》 这本书的介绍吧!

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具