深度学习文本分类工具 CoolNLTK 发布

栏目: 软件资讯 · 发布时间: 8年前

内容简介：CoolNLTK 文本分类工具集特点多模型,相对统一的数据输入,方便效果对比可直接用于生产使用相对简单已实现模型 TextCNN TextRNN CLstm 模型训练 1.train file 使用和fastText一样的数据输入测试数据可以从fas...

CoolNLTK

文本分类工具集

特点

多模型,相对统一的数据输入,方便效果对比
可直接用于生产
使用相对简单

已实现模型

模型训练

1.train file

使用和fastText一样的数据输入

测试数据可以从fastText的代码中下载然后copy到./datasets/dbpedia目录下具体方法, 参照fatText的文档，运行其中的classification-example.sh就能得到dbpedia.train 和dbpedia.test

注意：类别标签是从１开始的，因为在后面训练的时候需要做pad 0 的操作,为了避免混淆。

一个例子如下:

__label__7 , joseph purdy homestead
__label__13 , forever young ( 1992 film )
__label__11 , nepenthes ' boca rose
__label__6 , mv eilean bhearnaraigh

在train/main.sh指定相关的训练样本路径

TRAIN_FILE=./datasets/dbpedia/dbpedia.train
TEST_FILE=./datasets/dbpedia/dbpedia.test # 使用的模型 可选cnn, bilstm, clstm MODEL=cnn # 中间文件输出路径 DATA_OUT_DIR=./datasets/dbpedia/ # 模型输出路径 MODEL_OUT_DIR=./results/dbpedia/

2.embedding

生成word2vec的训练数据

./main.sh pre

训练词向量

./main.sh vec

3.map file

这一步产生需要的映射文件

./main.sh map

4.tfrecord

产生tfrecord 文件

./main.sh data

5.train

模型训练

./main.sh train

6.模型导出

导出成pb文件，可用Java，Go语言读取

./main export

模型使用

在predict.py中有例子，读取上面训练好导出的模型，和产生的vocab.json文件

TextRNN、TextCNN,CLstm 模型能共用这个模块

todo

根据最新的tensorflow重构代码
修改tfrecord 文件的格式，产生多分而不是一份
添加tensorboard

计划实现更多模型，包括但不限于下面这些

HAM
RCNN
Recurrent Entity Network
Dynamic Memory Network

[GitHub][码云]

【声明】文章转载自：开源中国社区 [http://www.oschina.net]

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

打造有吸引力的学习型社群

苏平、田士杰、吕守玉 / 机械工业出版社 / 45.00元

本书首先对社群的定位、准备和吸引粉丝方面等做了饶有趣味的介绍，从社群黏度的提升、社群知识的迭代与转化和社群的持续发展等多个角度入手，对学习型社群的运营手段、运营模式、运营规律和运营经验等进行了全方位剖析。从中国培训师沙龙这个公益社群近十年成功运营的经验中，为如何经营好学习型社群总结出了一套系统性的、具有实操价值的方法。并以此为基础，扩展到知识管理、团队管理、内容IP等领域，为有致于社团建设以及优质......一起来看看《打造有吸引力的学习型社群》这本书的介绍吧!

码农工具

深度学习文本分类工具 CoolNLTK 发布

CoolNLTK

特点

已实现模型

模型训练

1.train file

2.embedding

3.map file

4.tfrecord

5.train

6.模型导出

模型使用

todo

打造有吸引力的学习型社群

CSS 压缩/解压工具

RGB转16进制工具

在线进制转换器