Apache Tika 2.1.0 发布,内容检测和分析框架

栏目: 软件资讯 · 发布时间: 3年前

内容简介:Apache Tika 2.1.0 现已发布,这是一个用于检测和提取元数据和结构化文本内容的工具包。 主要更新内容 优化了 tika-parsers-extended 的打包 当没有指定编码时,Tika 应用程序会以 UTF-8 格式写入 将 PDF 的默认渲...

Apache Tika 2.1.0 现已发布,这是一个用于检测和提取元数据和结构化文本内容的 工具 包。

主要更新内容

  • 优化了 tika-parsers-extended 的打包
  • 当没有指定编码时,Tika 应用程序会以 UTF-8 格式写入 
  • 将 PDF 的默认渲染策略从 NO_TEXT 更改为 ALL
  • 修复了当用户指定了 tesseract 路径但未同时指定 TesserData 路径时,指向错误的 TesserData 目录的问题
  • 修复了 Icu4j 编码检测器可能会返回非标准的字符集名称的问题
  • 在 tika core 中添加一个简单的 UrlFetcher,作为 tika fetcher http的基本替代方案
  • 为 Google Cloud Storage 添加 tika-pipes 支持
  • 修复 ODT 文件的 xhtml 输出中的标记 排序 错误
  • 修复了 OpenSearch 发射器中嵌入式文档的序列化,并修复 Solr 发射器中某些使用情况下嵌入式文档未被索引的问题
  • 将 pipeClientId 系统属性添加到 PipesServer,以便每个子进程可以登录到它自己的记录器

详情请查看更新公告


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Trading and Exchanges

Trading and Exchanges

Larry Harris / Oxford University Press, USA / 2002-10-24 / USD 95.00

This book is about trading, the people who trade securities and contracts, the marketplaces where they trade, and the rules that govern it. Readers will learn about investors, brokers, dealers, arbit......一起来看看 《Trading and Exchanges》 这本书的介绍吧!

在线进制转换器
在线进制转换器

各进制数互转换器

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

html转js在线工具
html转js在线工具

html转js在线工具