Web 爬虫 Apache Nutch 1.18 发布

栏目: 软件资讯 · 发布时间: 5年前

内容简介:Apache Nutch 1.18 发布了。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。 此版本包含 30 多个错误修复和改进,部分更新内容...

Apache Nutch 1.18 发布了。Nutch是一个成熟的、可用生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。

Web 爬虫 Apache Nutch 1.18 发布

此版本包含 30 多个错误修复和改进,部分更新内容如下:

Bug 修复

  • javax.ws packaging.type 的可靠解决方案
  • 升级 lvy 以解决未设置 package.type 属性的问题
  • RobotsRulesParser 命令行检查器,以使用 http.robots.agents 作为后备
  • FreeGenerator 实际应用于提取列表的配置数量
  • MoreIndexingFilter-无法解析错误的日期

改进

  • MoreIndexingFilter 重构:将用于解析 “lastModified” 的数据格式移动到配置文件
  • 设置 Tika 1.19 中用于 MIME 检测的 XML SAX 解析池大小
  • 升级到 crawler-commons 1.1
  • 更新到 Tika 1.25
  • 把 commons-jexl 从 2 更新到 3

详细内容请查看更新公告


以上所述就是小编给大家介绍的《Web 爬虫 Apache Nutch 1.18 发布》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

创业无畏

创业无畏

彼得· 戴曼迪斯、史蒂芬· 科特勒 / 贾拥民 / 浙江人民出版社 / 2015-8 / 69.90元

 您是否有最大胆的商业梦想?您是否想把一个好主意快速转化为一家市值几百亿甚至几千亿元的公司?《创业无畏》不仅分享了成功创业家的真知灼见,更为我们绘制了一幅激情创业的行动路线图!  创业缺人手怎么办?如何解决钱的问题?把握指数型大众工具,互联网就是你车间,你的仓库。拥有好的创意,自然有人把钱“白白地送给你用”。当你大海捞针的时候,激励性大奖赛会让针自己跑到你的眼前来!  掌握指数级......一起来看看 《创业无畏》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

MD5 加密
MD5 加密

MD5 加密工具