内容简介:Apache Nutch 1.14 发布了。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。 更新内容: Bug 修复 [NUTCH-2071] - A parser fa...
Apache Nutch 1.14 发布了。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。
更新内容:
Bug 修复
[NUTCH-2071] - A parser failure on a single document may fail crawling job
[NUTCH-2235] - Classpath discrepancy with protocol-selenium in deploy mode
[NUTCH-2269] - Clean not working after crawl
[NUTCH-2295] - Nutch master docker container broken
[NUTCH-2297] - CrawlDbReader -stats wrong values for earliest fetch time and shortest interval
[NUTCH-2316] - Library conflict with Parser-Tika Plugin and Lib Folder
提升
[NUTCH-1763] - Improving comments on the Injector Class
[NUTCH-2034] - CrawlDB filtered documents counter.
[NUTCH-2035] - Regex filter using case sensitive rules.
[NUTCH-2046] - The crawl script should be able to skip an initial injection.
[NUTCH-2135] - Ant Eclipse build does not include protocol-interactiveselenium
[NUTCH-2193] - Upgrade feed parser plugin to use rome 1.5
完整更新内容请查看发布说明。
下载地址:
【声明】文章转载自:开源中国社区 [http://www.oschina.net]
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 爬虫平台Crawlab v0.2发布
- 爬虫管理平台 Crawlab v0.4.9 发布
- Scrapy 1.5.0 发布,Web 爬虫框架
- Scrapy 2.2.0 发布,Python 爬虫框架
- Scrapy 2.3.0 发布,Python 爬虫框架
- SeimiCrawler V2.0 发布,Java 爬虫框架
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Servlet&JSP学习笔记
林信良 / 清华大学出版社 / 2010-4 / 48.00元
《Servlet&JSP学习笔记》以“在线书签”项目贯穿全书,随着每一章的讲述都在适当的时候将 Servlet & JSP技术应用于“在线书签”程序之中,并作适当修改,以了解完整的应用程序构建方法。《Servlet&JSP学习笔记》内容包括简单的Web应用程序,开发简单的Servlet & JSP合理管理,JSP的使用,整合数据库等相关内容,《Servlet&JSP学习笔记》适合Servlet ......一起来看看 《Servlet&JSP学习笔记》 这本书的介绍吧!
RGB HSV 转换
RGB HSV 互转工具
RGB CMYK 转换工具
RGB CMYK 互转工具