Apache Tika 2.0.0 发布,内容检测和分析框架

栏目: 软件资讯 · 发布时间: 3年前

内容简介:Apache Tika 是一个用于检测和提取元数据和结构化文本内容的工具包。Apache Tika 2.0.0 发布,更新内容如下: 常规: 如果 tesseract 在用户的路径上,OCR 现在会自动对 PDF 文件进行触发; 在 tika-app、tika-se...

Apache Tika 是一个用于检测和提取元数据和结构化文本内容的 工具 包。Apache Tika 2.0.0 发布,更新内容如下:

常规:

  • 如果 tesseract 在用户的路径上,OCR 现在会自动对 PDF 文件进行触发;
  • 在 tika-app、tika-server 和其他任何使用了 log4j 的地方将 log4j 升级到 log4j2;
  • 默认情况下,当为 OCR 渲染一个页面时,PDFParser 不会渲染字形/文字;
  • 删除了废弃的元数据键/属性;
  • 删除了废弃的 PDFPreflightParser;
  • 删除了不指定字符集就读取输入流或转换为字节的危险调用;
  • 解析器可以在实例化时通过 tika-config.xml 进行配置;
  • 改变了翻译器实现的命名空间以避免与 tika-core 分开打包;

tika-parsers

  • 解析器模块被分成三个主要模块:tika-parsers-standard, tika-parsers-extended 和 tika-parsers-ml;
  • CompressorParser:用户必须将 com.github.luben:zstd-jni 依赖项添加到 classpath 来处理zstd 文件;
  • ChmParser 被移到 org.apache.tika.parser.microsoft.chm;
  • RTFParser 被移到 org.apache.tika.parser.microsoft.rtf;

tika-server

  • tika-server 现在默认会 fork 一个进程,将解析工作隔离在 fork 的进程中;
  • 大部分通过命令行进行的 tika-server 的传统配置已经被移至通过 tika-config.xml 文件进行配置;
  • tika-server的 "enableFileUrl" 已被删除,改为使用 FileSystemFetcher;
  • tika-server 的 /metadata 端点需要 tika-server-standard 来写入 XMP/rdf 输出;
  • 在 tika-server 中,对于那些可以通过配置对象在每次解析中进行配置的解析器来说,通过 ParseContext 传入的配置对象,配置对象将只更新那些用户修改过的字段;

更多详情可查看:https://downloads.apache.org/tika/2.0.0/CHANGES-2.0.0.txt


以上所述就是小编给大家介绍的《Apache Tika 2.0.0 发布,内容检测和分析框架》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Domain-Driven Design

Domain-Driven Design

Eric Evans / Addison-Wesley Professional / 2003-8-30 / USD 74.99

"Eric Evans has written a fantastic book on how you can make the design of your software match your mental model of the problem domain you are addressing. "His book is very compatible with XP. It is n......一起来看看 《Domain-Driven Design》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

MD5 加密
MD5 加密

MD5 加密工具