Apache Tika 2.0.0 发布,内容检测和分析框架

栏目: 软件资讯 · 发布时间: 4年前

内容简介:Apache Tika 是一个用于检测和提取元数据和结构化文本内容的工具包。Apache Tika 2.0.0 发布,更新内容如下: 常规: 如果 tesseract 在用户的路径上,OCR 现在会自动对 PDF 文件进行触发; 在 tika-app、tika-se...

Apache Tika 是一个用于检测和提取元数据和结构化文本内容的 工具 包。Apache Tika 2.0.0 发布,更新内容如下:

常规:

  • 如果 tesseract 在用户的路径上,OCR 现在会自动对 PDF 文件进行触发;
  • 在 tika-app、tika-server 和其他任何使用了 log4j 的地方将 log4j 升级到 log4j2;
  • 默认情况下,当为 OCR 渲染一个页面时,PDFParser 不会渲染字形/文字;
  • 删除了废弃的元数据键/属性;
  • 删除了废弃的 PDFPreflightParser;
  • 删除了不指定字符集就读取输入流或转换为字节的危险调用;
  • 解析器可以在实例化时通过 tika-config.xml 进行配置;
  • 改变了翻译器实现的命名空间以避免与 tika-core 分开打包;

tika-parsers

  • 解析器模块被分成三个主要模块:tika-parsers-standard, tika-parsers-extended 和 tika-parsers-ml;
  • CompressorParser:用户必须将 com.github.luben:zstd-jni 依赖项添加到 classpath 来处理zstd 文件;
  • ChmParser 被移到 org.apache.tika.parser.microsoft.chm;
  • RTFParser 被移到 org.apache.tika.parser.microsoft.rtf;

tika-server

  • tika-server 现在默认会 fork 一个进程,将解析工作隔离在 fork 的进程中;
  • 大部分通过命令行进行的 tika-server 的传统配置已经被移至通过 tika-config.xml 文件进行配置;
  • tika-server的 "enableFileUrl" 已被删除,改为使用 FileSystemFetcher;
  • tika-server 的 /metadata 端点需要 tika-server-standard 来写入 XMP/rdf 输出;
  • 在 tika-server 中,对于那些可以通过配置对象在每次解析中进行配置的解析器来说,通过 ParseContext 传入的配置对象,配置对象将只更新那些用户修改过的字段;

更多详情可查看:https://downloads.apache.org/tika/2.0.0/CHANGES-2.0.0.txt


以上所述就是小编给大家介绍的《Apache Tika 2.0.0 发布,内容检测和分析框架》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

群体的智慧

群体的智慧

[美] 詹姆斯·索罗维基 / 王宝泉 / 中信出版社 / 2010-10 / 33.00元

《纽约时报》榜首畅销书,《商业周刊》《福布斯》杂志最佳商业图书 21世纪商务人士必读书,了解群体智慧时代的决策模式 告诉我们如何过日子、如何选择领导人、如何做生意以及如何思考这个世界 我们当中的大多数人,不论是选民还是投资者,是客户还是经理人,似乎都相信宝贵的知识掌握在少数人手中,认为精英们做出的决策更加聪明,很少有人相信“乌合之众”也能像专家那样做得如此出色。 但《纽约客......一起来看看 《群体的智慧》 这本书的介绍吧!

html转js在线工具
html转js在线工具

html转js在线工具

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具