Apache Tika 1.23 发布,内容抽取工具集合

栏目: 软件资讯 · 发布时间: 6年前

内容简介:Apache Tika 1.23 发布了,Tika 是一个内容抽取的工具集合 (a toolkit for text extracting) 。它集成了 POI 和 Pdfbox,并且为文本抽取工作提供了一个统一的界面。其次,Tika 也提供了便利的扩展 API,用来丰富其...

Apache Tika 1.23 发布了,Tika 是一个内容抽取的 工具 集合 (a toolkit for text extracting) 。它集成了 POI 和 Pdfbox,并且为文本抽取工作提供了一个统一的界面。其次,Tika 也提供了便利的扩展 API,用来丰富其对第三方文件格式的支持。

新版本包含许多改进和错误修复,主要更新内容如下:

  • 注意:现在,当用户在渲染的页面图像上配置 OCR 时,PDFParser 依靠 OCRDPI 来渲染页面图像。 这将具有增加渲染图像大小的效果(TIKA-2624)。
  • 注意:对于没有解析器的文件类型,tika-server 不再返回 415。
  • 修复了 PDFParser 中的 AUTO OCR 策略中的错误(TIKA-3002)。
  • 修复了从 JPEG 图像中提取不正确的高度和宽度元数据的问题(TIKA-2630)。
  • 升级到 POI 4.1.1(TIKA-2851)。
  • 升级到 PDFBox 2.0.17(TIKA-2951)。
  • 确保 PDFParser 通过 Eric Pugh 从 tika-config.xml 中遵循 Tesseract 的自定义配置(TIKA-2970)。
  • 添加 XLIFF v1.2 文件的解析器(TIKA-2975)。
  • 添加对 WebAssembly(TIKA-2894)、HEIF/HEIC 图像(TIKA-2942)、Digilite FDF(TIKA-2988)的 mime 类型检测支持; XFDF(TIKA-2990)和 XDP(TIKA-2989)的 xml-root 检测。
  • 添加 XLZ 解析器(TIKA-2976)。
  • 当 InputStream 引发 IOException 时,使用 ForkParser 修复死锁(TIKA-2892)。

更新说明:https://www.apache.org/dist/tika/CHANGES-1.23.txt

下载地址:https://tika.apache.org/download.html


以上所述就是小编给大家介绍的《Apache Tika 1.23 发布,内容抽取工具集合》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Machine Learning in Action

Machine Learning in Action

Peter Harrington / Manning Publications / 2012-4-19 / GBP 29.99

It's been said that data is the new "dirt"—the raw material from which and on which you build the structures of the modern world. And like dirt, data can seem like a limitless, undifferentiated mass. ......一起来看看 《Machine Learning in Action》 这本书的介绍吧!

html转js在线工具
html转js在线工具

html转js在线工具

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具