Java 文本分类器集合 text-classifier-collection

码农软件 · 软件分类 · 中文分词库 · 2019-08-28 16:27:46

软件介绍

文本分类器集合

一个强大易用的Java文本分类工具包

特色

  • 功能全面

    • 内置信息检索中各种常用的文本预处理方法,如语言感知分词、词干提取、繁简转换、停用词去除、同义词插入、n-gram生成等等

    • 内置SVM、kNN、朴素贝叶斯等多种分类器

    • 内置支持CSV等格式数据的读取

  • 高度可定制

    • 你可以插入你编写的分词方法、单词规范化方法、停用词列表、同义词列表、TF-IDF公式等等

    • 可以轻易实现你自己的分类器而与工具包中其它工具一起使用

  • 容易使用

    • 可自动按给定数据集选取最优分类器

    • 与Java8引入的流和函数式API无缝结合

效果

数据集样本数分类数准确率
YouTube Spam Collection1956292.1%
SMS Spam Collection5574298.2%
Sentence Classification1510580.4%
Reuters-21578 Text Categorization Collection2157813559.8%
Reuters-21578 Text Categorization Collection2157817567.8%

本文地址:https://codercto.com/soft/d/13366.html

决战大数据

决战大数据

车品觉 / 浙江人民出版社 / 2014-3-1 / 45.9

[内容简介]  大数据时代的来临,给当今的商业带来了极大的冲击,多数电商人无不“谈大数据色变”,并呈现出一种观望、迷茫、手足无措的状态。车品觉,作为一名经验丰富的电商人,在敬畏大数据的同时,洞悉到了数据时代商业发展的更多契机,他创新了数据框架的建立和使用,重新量化了数据价值的指标,并挖掘了在无线数据和多屏时代下商业发展的本质……在他看来,改变思维方式,即可改变数据和商业的未来。  ......一起来看看 《决战大数据》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换