内容简介:Apache Nutch 1.14 发布了。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。 更新内容: Bug 修复 [NUTCH-2071] - A parser fa...
Apache Nutch 1.14 发布了。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。
更新内容:
Bug 修复
[NUTCH-2071] - A parser failure on a single document may fail crawling job
[NUTCH-2235] - Classpath discrepancy with protocol-selenium in deploy mode
[NUTCH-2269] - Clean not working after crawl
[NUTCH-2295] - Nutch master docker container broken
[NUTCH-2297] - CrawlDbReader -stats wrong values for earliest fetch time and shortest interval
[NUTCH-2316] - Library conflict with Parser-Tika Plugin and Lib Folder
提升
[NUTCH-1763] - Improving comments on the Injector Class
[NUTCH-2034] - CrawlDB filtered documents counter.
[NUTCH-2035] - Regex filter using case sensitive rules.
[NUTCH-2046] - The crawl script should be able to skip an initial injection.
[NUTCH-2135] - Ant Eclipse build does not include protocol-interactiveselenium
[NUTCH-2193] - Upgrade feed parser plugin to use rome 1.5
完整更新内容请查看发布说明。
下载地址:
【声明】文章转载自:开源中国社区 [http://www.oschina.net]
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 爬虫平台Crawlab v0.2发布
- 爬虫管理平台 Crawlab v0.4.9 发布
- Scrapy 1.5.0 发布,Web 爬虫框架
- Scrapy 2.2.0 发布,Python 爬虫框架
- Scrapy 2.3.0 发布,Python 爬虫框架
- SeimiCrawler V2.0 发布,Java 爬虫框架
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Python Algorithms
Magnus Lie Hetland / Apress / 2010-11-24 / USD 49.99
Python Algorithms explains the Python approach to algorithm analysis and design. Written by Magnus Lie Hetland, author of Beginning Python, this book is sharply focused on classical algorithms, but it......一起来看看 《Python Algorithms》 这本书的介绍吧!