风铃虫 1.1.0 发布,可以抓取 js 渲染网页的数据了

栏目: 软件资讯 · 发布时间: 4年前

内容简介:wind-bell 风铃虫是一款轻量级的爬虫工具,似风铃一样灵敏,如蜘蛛一般敏捷,能感知任何细小的风吹草动,轻松抓取互联网上的内容。它是一款对目标服务器相对友好的蜘蛛程序,内置了二十余种常见或不常见的浏览器标...

wind-bell 风铃虫是一款轻量级的爬虫工具,似风铃一样灵敏,如蜘蛛一般敏捷,能感知任何细小的风吹草动,轻松抓取互联网上的内容。它是一款对目标服务器相对友好的蜘蛛程序,内置了二十余种常见或不常见的浏览器标识,能够自动处理cookie和网页来源信息,轻松绕过服务器限制,智能调整请求间隔时间,动态调整请求频率,防止对目标服务器造成干扰。此外,风铃虫还是一款对普通用户十分友好的工具,它提供的大量链接提取器和内容提取器让用户可以随心所欲地快速配置,甚至于只要提供一个开始请求地址就能配置出自己爬虫程序。同时,风铃虫也开放了许多自定义接口,让高级用户能够根据需要自定义爬虫功能。最后,风铃虫还天然支持分布式和集群功能,让你突破单机环境的束缚,释放出你的爬虫能力。可以说,风铃虫几乎能抓取目前所有的网站里的绝大部分内容。

本次更新内容如下:

  1. 移除Httpclient网页下载器及其依赖
  2. 新增selenium相关组件,允许用户自定义实现selenium下载器
  3. 新增SeleniumDownloader下载器,可以下载前端渲染网页
  4. 新增资源回收功能,在风铃虫实例停止时自动回收下载器资源
  5. 修复网页SEO信息中keywords提取异常的问题
  6. 增加内置编码提取器,自动提取网页编码信息
  7. 修改请求的间隔时间和超时等待时间 规则属性的单位,使控制能力更精确
  8. 新增关闭请求间隔时间功能,控制能更灵活
  9. 新增非法链接过滤功能,自动过滤非法链接,提升抓取效率
  10. 优化连接过滤规则,提升抓取效率
  11. 优化自定义线程使用数,默认为运行宿主机的核心数

源码地址: https://gitee.com/zhiyubujian/wind-bell

API文档: https://apidoc.gitee.com/zhiyubujian/wind-bell/

 


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

郎咸平说:新经济颠覆了什么

郎咸平说:新经济颠覆了什么

郎咸平 / 东方出版社 / 2016-8 / 39.00元

正所谓“上帝欲其灭亡,必先令其疯狂”,在当下中国,“互联网+资本催化”的新经济引擎高速运转,大有碾压一切、颠覆一切之势。在新经济狂热之下,每个人都在全力以赴寻找“下一个风口”,幻想成为下一只飞起来的猪。 对此,一向以“危机论”著称的郎咸平教授再次发出盛世危言:新经济光环背后,危机已悄然而至!中国式O2O还能烧多久?P2P监管黑洞有多大?互联网造车为什么不靠谱?共享经济为什么徒有虚名?BAT为......一起来看看 《郎咸平说:新经济颠覆了什么》 这本书的介绍吧!

在线进制转换器
在线进制转换器

各进制数互转换器

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具