内容简介:Apache Nutch 1.16 发布了。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。 此版本包含 100 多个错误修复和改进,主要更新内容...
Apache Nutch 1.16 发布了。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。
此版本包含 100 多个错误修复和改进,主要更新内容如下:
新特性
- [NUTCH-2676] - 更新至最新的 selenium,并添加代码以通过远程 Web 驱动程序使用 chrome 和 firefox 无头模式
Bug 修复
- [NUTCH-1063] - OutlinkExtractor 测试会生成异常,但不会失败
- [NUTCH-1842] - crawl.gen.delay 在 nutch-default.xml 中具有错误的默认值,或者被错误地解析
- [NUTCH-2279] - 使用 Hadoop MR 输出压缩时 LinkRank 失败
- [NUTCH-2381] - 在某些情况下,类 TextProfileSignature 为同一文本“配置文件”页面提供不同的签名
- [NUTCH-2387] - Nutch 不应使用 “noindex” 元索引文件
- [NUTCH-2457] - Tika 可能无法正确解析嵌入的文档
- [NUTCH-2475] - If 和 else-if 分支的条件相同
- [NUTCH-2482] - index-geoip 不向文档字段添加空值
- [NUTCH-2585] - TrieStringMatcher 中的 NPE
- [NUTCH-2598] - URLNormalizerChecker 在输入中的无效 URL 上失败
- ……
详情见更新说明。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 爬虫平台Crawlab v0.2发布
- 爬虫管理平台 Crawlab v0.4.9 发布
- Scrapy 1.5.0 发布,Web 爬虫框架
- Scrapy 2.2.0 发布,Python 爬虫框架
- Scrapy 2.3.0 发布,Python 爬虫框架
- SeimiCrawler V2.0 发布,Java 爬虫框架
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Web开发敏捷之道
Sam Ruby、Dave Thomas、David Heineme Hansson / 慕尼黑Isar工作组、骆古道 / 机械工业出版社 / 2012-3-15 / 59.00元
本书第1版曾荣获Jolt大奖“最佳技术图书”奖。在前3版的内容架构基础上,第4版增加了关于Rails中新特性和最佳实践的内容。本书从逐步创建一个真正的应用程序开始,然后介绍Rails的内置功能。全书分为3部分,第一部分介绍Rails的安装、应用程序验证、Rails框架的体系结构,以及Ruby语言的知识;第二部分用迭代方式创建应用程序,然后依据敏捷开发模式搭建测试案例,最终用Capistrano完成......一起来看看 《Web开发敏捷之道》 这本书的介绍吧!