- 授权协议: GPL
- 开发语言: Java
- 操作系统: 跨平台
- 软件首页: https://github.com/chungkwong/text-classifier-collection
- 软件文档: https://github.com/chungkwong/text-classifier-collection
- 官方下载: https://github.com/chungkwong/text-classifier-collection
软件介绍
文本分类器集合
一个强大易用的Java文本分类工具包
特色
功能全面
内置信息检索中各种常用的文本预处理方法,如语言感知分词、词干提取、繁简转换、停用词去除、同义词插入、n-gram生成等等
内置SVM、kNN、朴素贝叶斯等多种分类器
内置支持CSV等格式数据的读取
高度可定制
你可以插入你编写的分词方法、单词规范化方法、停用词列表、同义词列表、TF-IDF公式等等
可以轻易实现你自己的分类器而与工具包中其它工具一起使用
容易使用
可自动按给定数据集选取最优分类器
与Java8引入的流和函数式API无缝结合
效果
| 数据集 | 样本数 | 分类数 | 准确率 |
|---|---|---|---|
| YouTube Spam Collection | 1956 | 2 | 92.1% |
| SMS Spam Collection | 5574 | 2 | 98.2% |
| Sentence Classification | 1510 | 5 | 80.4% |
| Reuters-21578 Text Categorization Collection | 21578 | 135 | 59.8% |
| Reuters-21578 Text Categorization Collection | 21578 | 175 | 67.8% |
设计原本
Frederick P. Brooks, Jr. / InfoQ中文站、王海鹏、高博 / 机械工业出版社 / 2011-1-1 / 55.00元
无论是软件开发、工程还是建筑,有效的设计都是工作的核心。《设计原本:计算机科学巨匠Frederick P. Brooks的思考》将对设计过程进行深入分析,揭示进行有效和优雅设计的方法。 本书包含了多个行业设计者的特别领悟。Frederick P. Brooks, Jr.精确发现了所有设计项目中内在的不变因素,揭示 了进行优秀设计的过程和模式。通过与几十位优秀设计者的对话,以及他自己在几个设计......一起来看看 《设计原本》 这本书的介绍吧!
