Apache Tika 2.0.0 发布,内容检测和分析框架

栏目: 软件资讯 · 发布时间: 3年前

内容简介:Apache Tika 是一个用于检测和提取元数据和结构化文本内容的工具包。Apache Tika 2.0.0 发布,更新内容如下: 常规: 如果 tesseract 在用户的路径上,OCR 现在会自动对 PDF 文件进行触发; 在 tika-app、tika-se...

Apache Tika 是一个用于检测和提取元数据和结构化文本内容的 工具 包。Apache Tika 2.0.0 发布,更新内容如下:

常规:

  • 如果 tesseract 在用户的路径上,OCR 现在会自动对 PDF 文件进行触发;
  • 在 tika-app、tika-server 和其他任何使用了 log4j 的地方将 log4j 升级到 log4j2;
  • 默认情况下,当为 OCR 渲染一个页面时,PDFParser 不会渲染字形/文字;
  • 删除了废弃的元数据键/属性;
  • 删除了废弃的 PDFPreflightParser;
  • 删除了不指定字符集就读取输入流或转换为字节的危险调用;
  • 解析器可以在实例化时通过 tika-config.xml 进行配置;
  • 改变了翻译器实现的命名空间以避免与 tika-core 分开打包;

tika-parsers

  • 解析器模块被分成三个主要模块:tika-parsers-standard, tika-parsers-extended 和 tika-parsers-ml;
  • CompressorParser:用户必须将 com.github.luben:zstd-jni 依赖项添加到 classpath 来处理zstd 文件;
  • ChmParser 被移到 org.apache.tika.parser.microsoft.chm;
  • RTFParser 被移到 org.apache.tika.parser.microsoft.rtf;

tika-server

  • tika-server 现在默认会 fork 一个进程,将解析工作隔离在 fork 的进程中;
  • 大部分通过命令行进行的 tika-server 的传统配置已经被移至通过 tika-config.xml 文件进行配置;
  • tika-server的 "enableFileUrl" 已被删除,改为使用 FileSystemFetcher;
  • tika-server 的 /metadata 端点需要 tika-server-standard 来写入 XMP/rdf 输出;
  • 在 tika-server 中,对于那些可以通过配置对象在每次解析中进行配置的解析器来说,通过 ParseContext 传入的配置对象,配置对象将只更新那些用户修改过的字段;

更多详情可查看:https://downloads.apache.org/tika/2.0.0/CHANGES-2.0.0.txt


以上所述就是小编给大家介绍的《Apache Tika 2.0.0 发布,内容检测和分析框架》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

APP蓝图

APP蓝图

吕皓月 / 清华大学出版社 / 2015-1-1 / 69.00

移动互联网原型设计,简单来说,就是使用建模软件制作基于手机或者平板电脑的App,HTML 5网站的高保真原型。在7.0 之前的版本中,使用Axure RP进行移动互联网的建模也是可以的。比如,对于桌面的网站模型,制作一个1024像素宽度的页面就可以了;现在针对移动设备,制作320像素宽度的页面就好了。但是在新版本的Axure RP 7.0 中,加入了大量对于移动互联网的支持,如手指滑动,拖动,横屏......一起来看看 《APP蓝图》 这本书的介绍吧!

MD5 加密
MD5 加密

MD5 加密工具

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具