风铃虫 1.1.0 发布,可以抓取 js 渲染网页的数据了

栏目: 软件资讯 · 发布时间: 4年前

内容简介:wind-bell 风铃虫是一款轻量级的爬虫工具,似风铃一样灵敏,如蜘蛛一般敏捷,能感知任何细小的风吹草动,轻松抓取互联网上的内容。它是一款对目标服务器相对友好的蜘蛛程序,内置了二十余种常见或不常见的浏览器标...

wind-bell 风铃虫是一款轻量级的爬虫工具,似风铃一样灵敏,如蜘蛛一般敏捷,能感知任何细小的风吹草动,轻松抓取互联网上的内容。它是一款对目标服务器相对友好的蜘蛛程序,内置了二十余种常见或不常见的浏览器标识,能够自动处理cookie和网页来源信息,轻松绕过服务器限制,智能调整请求间隔时间,动态调整请求频率,防止对目标服务器造成干扰。此外,风铃虫还是一款对普通用户十分友好的工具,它提供的大量链接提取器和内容提取器让用户可以随心所欲地快速配置,甚至于只要提供一个开始请求地址就能配置出自己爬虫程序。同时,风铃虫也开放了许多自定义接口,让高级用户能够根据需要自定义爬虫功能。最后,风铃虫还天然支持分布式和集群功能,让你突破单机环境的束缚,释放出你的爬虫能力。可以说,风铃虫几乎能抓取目前所有的网站里的绝大部分内容。

本次更新内容如下:

  1. 移除Httpclient网页下载器及其依赖
  2. 新增selenium相关组件,允许用户自定义实现selenium下载器
  3. 新增SeleniumDownloader下载器,可以下载前端渲染网页
  4. 新增资源回收功能,在风铃虫实例停止时自动回收下载器资源
  5. 修复网页SEO信息中keywords提取异常的问题
  6. 增加内置编码提取器,自动提取网页编码信息
  7. 修改请求的间隔时间和超时等待时间 规则属性的单位,使控制能力更精确
  8. 新增关闭请求间隔时间功能,控制能更灵活
  9. 新增非法链接过滤功能,自动过滤非法链接,提升抓取效率
  10. 优化连接过滤规则,提升抓取效率
  11. 优化自定义线程使用数,默认为运行宿主机的核心数

源码地址: https://gitee.com/zhiyubujian/wind-bell

API文档: https://apidoc.gitee.com/zhiyubujian/wind-bell/

 


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

编程之魂

编程之魂

Federico Biancuzzi、Shane Warden / 闫怀志 / 电子工业出版社 / 2010-04 / 59.80元

本书是27位杰出的设计师与你分享他们的智慧和经验。书中以问答方式告诉为什么要创建某种编程语言、它在技术上如何开发、如何教授和学习,以及它如何顺应时代发展等。你会发现构建成功编程语言所需的思想和步骤,它广受欢迎的原因,以及如何处理程序员常见的问题。因此,如果你想深入学习设计成功编程语言的思想,本书会对你大有帮助。一起来看看 《编程之魂》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

URL 编码/解码
URL 编码/解码

URL 编码/解码