Apache Nutch 1.14 发布,Web 爬虫

栏目: 软件资讯 · 发布时间: 6年前

内容简介:Apache Nutch 1.14 发布了。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。 更新内容: Bug 修复 [NUTCH-2071] - A parser fa...

Apache Nutch 1.14 发布了。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。

更新内容:

Bug 修复

  • [NUTCH-2071] - A parser failure on a single document may fail crawling job

  • [NUTCH-2235] - Classpath discrepancy with protocol-selenium in deploy mode

  • [NUTCH-2269] - Clean not working after crawl

  • [NUTCH-2295] - Nutch master docker container broken

  • [NUTCH-2297] - CrawlDbReader -stats wrong values for earliest fetch time and shortest interval

  • [NUTCH-2316] - Library conflict with Parser-Tika Plugin and Lib Folder

提升

  • [NUTCH-1763] - Improving comments on the Injector Class

  • [NUTCH-2034] - CrawlDB filtered documents counter.

  • [NUTCH-2035] - Regex filter using case sensitive rules.

  • [NUTCH-2046] - The crawl script should be able to skip an initial injection.

  • [NUTCH-2135] - Ant Eclipse build does not include protocol-interactiveselenium

  • [NUTCH-2193] - Upgrade feed parser plugin to use rome 1.5

完整更新内容请查看发布说明

下载地址:


【声明】文章转载自:开源中国社区 [http://www.oschina.net]


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

白帽子讲浏览器安全

白帽子讲浏览器安全

钱文祥 / 电子工业出版社 / 2016-3 / 79.00元

浏览器是重要的互联网入口,一旦受到漏洞攻击,将直接影响到用户的信息安全。作为攻击者有哪些攻击思路,作为用户有哪些应对手段?在《白帽子讲浏览器安全》中我们将给出解答,带你了解浏览器安全的方方面面。《白帽子讲浏览器安全》兼顾攻击者、研究者和使用者三个场景,对大部分攻击都提供了分析思路和防御方案。《白帽子讲浏览器安全》从攻击者常用技巧的“表象”深入介绍浏览器的具体实现方式,让你在知其然的情况下也知其所以......一起来看看 《白帽子讲浏览器安全》 这本书的介绍吧!

HTML 编码/解码
HTML 编码/解码

HTML 编码/解码

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具