Apache Tika 2.0.0 发布，内容检测和分析框架

栏目: 软件资讯 · 发布时间: 4年前

内容简介：Apache Tika 是一个用于检测和提取元数据和结构化文本内容的工具包。Apache Tika 2.0.0 发布，更新内容如下：常规：如果 tesseract 在用户的路径上，OCR 现在会自动对 PDF 文件进行触发；在 tika-app、tika-se...

Apache Tika 是一个用于检测和提取元数据和结构化文本内容的工具包。Apache Tika 2.0.0 发布，更新内容如下：

常规：

如果 tesseract 在用户的路径上，OCR 现在会自动对 PDF 文件进行触发；
在 tika-app、tika-server 和其他任何使用了 log4j 的地方将 log4j 升级到 log4j2；
默认情况下，当为 OCR 渲染一个页面时，PDFParser 不会渲染字形/文字；
删除了废弃的元数据键/属性；
删除了废弃的 PDFPreflightParser；
删除了不指定字符集就读取输入流或转换为字节的危险调用；
解析器可以在实例化时通过 tika-config.xml 进行配置；
改变了翻译器实现的命名空间以避免与 tika-core 分开打包；

tika-parsers

解析器模块被分成三个主要模块：tika-parsers-standard, tika-parsers-extended 和 tika-parsers-ml；
CompressorParser：用户必须将 com.github.luben:zstd-jni 依赖项添加到 classpath 来处理zstd 文件；
ChmParser 被移到 org.apache.tika.parser.microsoft.chm；
RTFParser 被移到 org.apache.tika.parser.microsoft.rtf；

tika-server

tika-server 现在默认会 fork 一个进程，将解析工作隔离在 fork 的进程中；
大部分通过命令行进行的 tika-server 的传统配置已经被移至通过 tika-config.xml 文件进行配置；
tika-server的 "enableFileUrl" 已被删除，改为使用 FileSystemFetcher；
tika-server 的 /metadata 端点需要 tika-server-standard 来写入 XMP/rdf 输出；
在 tika-server 中，对于那些可以通过配置对象在每次解析中进行配置的解析器来说，通过 ParseContext 传入的配置对象，配置对象将只更新那些用户修改过的字段；

以上所述就是小编给大家介绍的《Apache Tika 2.0.0 发布，内容检测和分析框架》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Go程序设计语言

艾伦 A. A. 多诺万 / 李道兵、高博、庞向才、金鑫鑫、林齐斌 / 机械工业出版社 / 2017-5 / 79

本书由《C程序设计语言》的作者Kernighan和谷歌公司Go团队主管Alan Donovan联袂撰写，是学习Go语言程序设计的指南。本书共13章，主要内容包括：Go的基础知识、基本结构、基本数据类型、复合数据类型、函数、方法、接口、goroutine、通道、共享变量的并发性、包、go工具、测试、反射等。本书适合作为计算机相关专业的教材，也可供Go语言爱好者阅读。一起来看看《Go程序设计语言》这本书的介绍吧!

码农工具

Apache Tika 2.0.0 发布，内容检测和分析框架

Go程序设计语言

JS 压缩/解压工具

JSON 在线解析

Base64 编码/解码