内容简介:Apache Nutch 1.18 发布了。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。 此版本包含 30 多个错误修复和改进,部分更新内容...
Apache Nutch 1.18 发布了。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。
此版本包含 30 多个错误修复和改进,部分更新内容如下:
Bug 修复
- javax.ws packaging.type 的可靠解决方案
- 升级 lvy 以解决未设置 package.type 属性的问题
- RobotsRulesParser 命令行检查器,以使用 http.robots.agents 作为后备
- FreeGenerator 实际应用于提取列表的配置数量
- MoreIndexingFilter-无法解析错误的日期
改进
- MoreIndexingFilter 重构:将用于解析 “lastModified” 的数据格式移动到配置文件
- 设置 Tika 1.19 中用于 MIME 检测的 XML SAX 解析池大小
- 升级到 crawler-commons 1.1
- 更新到 Tika 1.25
- 把 commons-jexl 从 2 更新到 3
详细内容请查看更新公告。
以上所述就是小编给大家介绍的《Web 爬虫 Apache Nutch 1.18 发布》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- 爬虫平台Crawlab v0.2发布
- 爬虫管理平台 Crawlab v0.4.9 发布
- Scrapy 1.5.0 发布,Web 爬虫框架
- Scrapy 2.2.0 发布,Python 爬虫框架
- Scrapy 2.3.0 发布,Python 爬虫框架
- SeimiCrawler V2.0 发布,Java 爬虫框架
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
互联网思维独孤九剑
赵大伟 / 机械工业出版社 / 2014-3-20 / 49
《互联网思维独孤九剑》是国内第一部系统阐述互联网思维的著作,用9大互联网思维:用户思维、简约思维、极致思维、迭代思维、流量思维、社会化思维、大数据思维、平台思维、跨界思维,以专业的视角全方位解读移动互联网给传统产业带来的变革,涉及战略规划、商业模式设计、品牌建设、产品研发、营销推广、组织转型、文化变革等企业经营价值链条的各个方面。这是一部传统企业互联网转型必读的“孙子兵法”,帮助我们开启对新商业文......一起来看看 《互联网思维独孤九剑》 这本书的介绍吧!