内容简介:Apache Tika 2.1.0 现已发布,这是一个用于检测和提取元数据和结构化文本内容的工具包。 主要更新内容 优化了 tika-parsers-extended 的打包 当没有指定编码时,Tika 应用程序会以 UTF-8 格式写入 将 PDF 的默认渲...
Apache Tika 2.1.0 现已发布,这是一个用于检测和提取元数据和结构化文本内容的 工具 包。
主要更新内容
- 优化了 tika-parsers-extended 的打包
- 当没有指定编码时,Tika 应用程序会以 UTF-8 格式写入
- 将 PDF 的默认渲染策略从 NO_TEXT 更改为 ALL
- 修复了当用户指定了 tesseract 路径但未同时指定 TesserData 路径时,指向错误的 TesserData 目录的问题
- 修复了 Icu4j 编码检测器可能会返回非标准的字符集名称的问题
- 在 tika core 中添加一个简单的 UrlFetcher,作为 tika fetcher http的基本替代方案
- 为 Google Cloud Storage 添加 tika-pipes 支持
- 修复 ODT 文件的 xhtml 输出中的标记 排序 错误
- 修复了 OpenSearch 发射器中嵌入式文档的序列化,并修复 Solr 发射器中某些使用情况下嵌入式文档未被索引的问题
- 将 pipeClientId 系统属性添加到 PipesServer,以便每个子进程可以登录到它自己的记录器
详情请查看更新公告。
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- CVPR 2020丨基于点云的3D物体检测新框架
- 大讲堂 | 物体检测算法的近期发展及开源框架介绍
- SimpleDet: 一套简单通用的目标检测与物体识别框架
- Facebook 发布 Detectron 2,下一个万星目标检测新框架
- 香港中文大学陈恺:物体检测算法的近期发展及开源框架介绍 | 大讲堂第 102 期
- 吴博:目标检测集成框架在医学图像 AI 辅助分析中的应用 | AI 研习社第 78 期大讲堂
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Trading and Exchanges
Larry Harris / Oxford University Press, USA / 2002-10-24 / USD 95.00
This book is about trading, the people who trade securities and contracts, the marketplaces where they trade, and the rules that govern it. Readers will learn about investors, brokers, dealers, arbit......一起来看看 《Trading and Exchanges》 这本书的介绍吧!