Web 爬虫 Apache Nutch 1.16 发布

栏目: 软件资讯 · 发布时间: 6年前

内容简介:Apache Nutch 1.16 发布了。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。 此版本包含 100 多个错误修复和改进,主要更新内容...

Apache Nutch 1.16 发布了。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。

此版本包含 100 多个错误修复和改进,主要更新内容如下:

新特性

  • [NUTCH-2676] - 更新至最新的 selenium,并添加代码以通过远程 Web 驱动程序使用 chrome 和 firefox 无头模式

Bug 修复

  • [NUTCH-1063] - OutlinkExtractor 测试会生成异常,但不会失败
  • [NUTCH-1842] - crawl.gen.delay 在 nutch-default.xml 中具有错误的默认值,或者被错误地解析
  • [NUTCH-2279] - 使用 Hadoop MR 输出压缩时 LinkRank 失败
  • [NUTCH-2381] - 在某些情况下,类 TextProfileSignature 为同一文本“配置文件”页面提供不同的签名
  • [NUTCH-2387] - Nutch 不应使用 “noindex” 元索引文件
  • [NUTCH-2457] - Tika 可能无法正确解析嵌入的文档
  • [NUTCH-2475] - If 和 else-if 分支的条件相同
  • [NUTCH-2482] - index-geoip 不向文档字段添加空值
  • [NUTCH-2585] - TrieStringMatcher 中的 NPE
  • [NUTCH-2598] - URLNormalizerChecker 在输入中的无效 URL 上失败
  • ……

详情见更新说明


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

现代前端技术解析

现代前端技术解析

张成文 / 电子工业出版社 / 2017-4-1 / 79.00元

这是一本以现代前端技术思想与理论为主要内容的书。前端技术发展迅速,涉及的技术点很多,我们往往需要阅读很多书籍才能理解前端技术的知识体系。《现代前端技术解析》在前端知识体系上做了很好的总结和梳理,涵盖了现代前端技术绝大部分的知识内容,起到一个启蒙作用,能帮助读者快速把握前端技术的整个脉络,培养更完善的体系化思维,掌握更多灵活的前端代码架构方法,使读者获得成为高级前端工程师或架构师所必须具备的思维和能......一起来看看 《现代前端技术解析》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具