风铃虫 1.1.0 发布,可以抓取 js 渲染网页的数据了

栏目: 软件资讯 · 发布时间: 6年前

内容简介:wind-bell 风铃虫是一款轻量级的爬虫工具,似风铃一样灵敏,如蜘蛛一般敏捷,能感知任何细小的风吹草动,轻松抓取互联网上的内容。它是一款对目标服务器相对友好的蜘蛛程序,内置了二十余种常见或不常见的浏览器标...

wind-bell 风铃虫是一款轻量级的爬虫工具,似风铃一样灵敏,如蜘蛛一般敏捷,能感知任何细小的风吹草动,轻松抓取互联网上的内容。它是一款对目标服务器相对友好的蜘蛛程序,内置了二十余种常见或不常见的浏览器标识,能够自动处理cookie和网页来源信息,轻松绕过服务器限制,智能调整请求间隔时间,动态调整请求频率,防止对目标服务器造成干扰。此外,风铃虫还是一款对普通用户十分友好的工具,它提供的大量链接提取器和内容提取器让用户可以随心所欲地快速配置,甚至于只要提供一个开始请求地址就能配置出自己爬虫程序。同时,风铃虫也开放了许多自定义接口,让高级用户能够根据需要自定义爬虫功能。最后,风铃虫还天然支持分布式和集群功能,让你突破单机环境的束缚,释放出你的爬虫能力。可以说,风铃虫几乎能抓取目前所有的网站里的绝大部分内容。

本次更新内容如下:

  1. 移除Httpclient网页下载器及其依赖
  2. 新增selenium相关组件,允许用户自定义实现selenium下载器
  3. 新增SeleniumDownloader下载器,可以下载前端渲染网页
  4. 新增资源回收功能,在风铃虫实例停止时自动回收下载器资源
  5. 修复网页SEO信息中keywords提取异常的问题
  6. 增加内置编码提取器,自动提取网页编码信息
  7. 修改请求的间隔时间和超时等待时间 规则属性的单位,使控制能力更精确
  8. 新增关闭请求间隔时间功能,控制能更灵活
  9. 新增非法链接过滤功能,自动过滤非法链接,提升抓取效率
  10. 优化连接过滤规则,提升抓取效率
  11. 优化自定义线程使用数,默认为运行宿主机的核心数

源码地址: https://gitee.com/zhiyubujian/wind-bell

API文档: https://apidoc.gitee.com/zhiyubujian/wind-bell/

 


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

独角兽之路

独角兽之路

三节课产品社区 / 电子工业出版社 / 2016-7 / 79.00元

对2~3年以上经验的互联网人来说,最好的学习可能不是听课,而是分析各类真实的产品和运营案例。而《独角兽之路:20款快速爆发且极具潜力的互联网产品深度剖析(全彩)》正好提供了对滴滴出行、百度外卖、懂球帝、快手App等20款极具代表性的准独角兽产品的发展路径的深度分析。 通过阅读《独角兽之路:20款快速爆发且极具潜力的互联网产品深度剖析(全彩)》,你可以发现互联网产品发展的背后,或许存在着某些共......一起来看看 《独角兽之路》 这本书的介绍吧!

HTML 编码/解码
HTML 编码/解码

HTML 编码/解码

MD5 加密
MD5 加密

MD5 加密工具

SHA 加密
SHA 加密

SHA 加密工具