内容简介:wind-bell 风铃虫是一款轻量级的爬虫工具,似风铃一样灵敏,如蜘蛛一般敏捷,能感知任何细小的风吹草动,轻松抓取互联网上的内容。它是一款对目标服务器相对友好的蜘蛛程序,内置了二十余种常见或不常见的浏览器标...
wind-bell 风铃虫是一款轻量级的爬虫工具,似风铃一样灵敏,如蜘蛛一般敏捷,能感知任何细小的风吹草动,轻松抓取互联网上的内容。它是一款对目标服务器相对友好的蜘蛛程序,内置了二十余种常见或不常见的浏览器标识,能够自动处理cookie和网页来源信息,轻松绕过服务器限制,智能调整请求间隔时间,动态调整请求频率,防止对目标服务器造成干扰。此外,风铃虫还是一款对普通用户十分友好的工具,它提供的大量链接提取器和内容提取器让用户可以随心所欲地快速配置,甚至于只要提供一个开始请求地址就能配置出自己爬虫程序。同时,风铃虫也开放了许多自定义接口,让高级用户能够根据需要自定义爬虫功能。最后,风铃虫还天然支持分布式和集群功能,让你突破单机环境的束缚,释放出你的爬虫能力。可以说,风铃虫几乎能抓取目前所有的网站里的绝大部分内容。
本次更新内容如下:
- 移除Httpclient网页下载器及其依赖
- 新增selenium相关组件,允许用户自定义实现selenium下载器
- 新增SeleniumDownloader下载器,可以下载前端渲染网页
- 新增资源回收功能,在风铃虫实例停止时自动回收下载器资源
- 修复网页SEO信息中keywords提取异常的问题
- 增加内置编码提取器,自动提取网页编码信息
- 修改请求的间隔时间和超时等待时间 规则属性的单位,使控制能力更精确
- 新增关闭请求间隔时间功能,控制能更灵活
- 新增非法链接过滤功能,自动过滤非法链接,提升抓取效率
- 优化连接过滤规则,提升抓取效率
- 优化自定义线程使用数,默认为运行宿主机的核心数
源码地址: https://gitee.com/zhiyubujian/wind-bell
API文档: https://apidoc.gitee.com/zhiyubujian/wind-bell/
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 风铃虫 2.0.0 发布,新增抓取深度限制
- 风铃虫 1.3.0 发布,修复若干 bug
- 风铃虫 2.2.0 发布,优化任务停止机制
- 风铃虫 2.2.1 发布,新增数据传递功能
- 风铃虫 1.2.0 发布了,新增脚本提取功能
- 风铃虫 2.1.0 发布,支持多任务多线程
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。