内容简介:Apache Tika 是一个用于检测和提取元数据和结构化文本内容的工具包。Apache Tika 2.0.0 发布,更新内容如下: 常规: 如果 tesseract 在用户的路径上,OCR 现在会自动对 PDF 文件进行触发; 在 tika-app、tika-se...
Apache Tika 是一个用于检测和提取元数据和结构化文本内容的 工具 包。Apache Tika 2.0.0 发布,更新内容如下:
常规:
- 如果 tesseract 在用户的路径上,OCR 现在会自动对 PDF 文件进行触发;
- 在 tika-app、tika-server 和其他任何使用了 log4j 的地方将 log4j 升级到 log4j2;
- 默认情况下,当为 OCR 渲染一个页面时,PDFParser 不会渲染字形/文字;
- 删除了废弃的元数据键/属性;
- 删除了废弃的 PDFPreflightParser;
- 删除了不指定字符集就读取输入流或转换为字节的危险调用;
- 解析器可以在实例化时通过 tika-config.xml 进行配置;
- 改变了翻译器实现的命名空间以避免与 tika-core 分开打包;
tika-parsers
- 解析器模块被分成三个主要模块:tika-parsers-standard, tika-parsers-extended 和 tika-parsers-ml;
- CompressorParser:用户必须将 com.github.luben:zstd-jni 依赖项添加到 classpath 来处理zstd 文件;
- ChmParser 被移到 org.apache.tika.parser.microsoft.chm;
- RTFParser 被移到 org.apache.tika.parser.microsoft.rtf;
tika-server
- tika-server 现在默认会 fork 一个进程,将解析工作隔离在 fork 的进程中;
- 大部分通过命令行进行的 tika-server 的传统配置已经被移至通过 tika-config.xml 文件进行配置;
- tika-server的 "enableFileUrl" 已被删除,改为使用 FileSystemFetcher;
- tika-server 的 /metadata 端点需要 tika-server-standard 来写入 XMP/rdf 输出;
- 在 tika-server 中,对于那些可以通过配置对象在每次解析中进行配置的解析器来说,通过 ParseContext 传入的配置对象,配置对象将只更新那些用户修改过的字段;
更多详情可查看:https://downloads.apache.org/tika/2.0.0/CHANGES-2.0.0.txt
以上所述就是小编给大家介绍的《Apache Tika 2.0.0 发布,内容检测和分析框架》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- CVPR 2020丨基于点云的3D物体检测新框架
- 大讲堂 | 物体检测算法的近期发展及开源框架介绍
- SimpleDet: 一套简单通用的目标检测与物体识别框架
- Facebook 发布 Detectron 2,下一个万星目标检测新框架
- 香港中文大学陈恺:物体检测算法的近期发展及开源框架介绍 | 大讲堂第 102 期
- 吴博:目标检测集成框架在医学图像 AI 辅助分析中的应用 | AI 研习社第 78 期大讲堂
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。