vscrawler 0.3.0 发布,抓取复杂交互逻辑的爬虫框架

栏目: 软件资讯 · 发布时间: 7年前

内容简介:vscrawler是一个爬虫框架,用来突破各类网站封禁策略。到目前vscrawler已经支持了很多特性。 0.0.x vs基础结构确定 0.1.x 对数据抽取进行完整设计,包括xpath、链式抽取、字符串函数集、表格数据定位 0.2.0 支持运...

vscrawler是一个爬虫框架,用来突破各类网站封禁策略。到目前vscrawler已经支持了很多特性。

  1. 0.0.x vs基础结构确定

  2. 0.1.x 对数据抽取进行完整设计,包括xpath、链式抽取、字符串函数集、表格数据定位

  3. 0.2.0 支持运行多个爬虫实例(context隔离)

  4. 0.2.1 支持注解爬虫

  5. 0.2.2 完整设计爬虫资源队列管理,处理资源的分发、封禁、解禁、多机器分发隔离,用来处理账号、设备号、token等可复用资源

  6. 0.2.3-6 同步抓取接口,关于超时时间的各种优化(同步抓取系统需要实时性),自此vscrawler在离线抓取和在线抓取上面都得到了工程性的验证

  7. 0.3.x web端的实现,除了常规框架支持的爬虫启停控制,还提供爬虫代码热替换、抓取封装为restful接口两个特色功能

这次我实现了vscrawler 0.3.0,最主要的功能是实现了一个爬虫管理平台,爬虫平台支持任何基于vscrawler的爬虫实现在该平台进行热部署(jar包的方式)。vscrawler的前端代码在vscrawler项目外部,其地址为:https://gitee.com/virjar/vscrawler-frontend  。

除了热加载之外,这次借助于web项目的开发,暴露了在线抓取接口,使用方可以在加载自己的爬虫实现之后,直接通过restful接口实现数据抓取的调用。在线接口能够同时又session复用,资源队列,数据抽取等能力,同时vscrawler也支持了在线抓取和批量抓取在系统中共存。也即可以同时存在推拉两种模式。

除此之外,本次更新删除了基于bloomFilter进行任务消重的功能。让任务直接在db层面进行消重。vscrawler内置的BerkeleyDB完全能够满足高效消重的需求了。

web端刚刚实现,由于涉及用户交互,可能真的有些没有覆盖测试完整的bug,各位轻喷。

ps:0.2.6在我司已经运行半年多了,至今没有出现过问题,一直稳定提供数据,应该没啥大问题:-D

另外,非常感谢杨博文帮助我实现vscrawler的前端@ https://gitee.com/wssss


【声明】文章转载自:开源中国社区 [http://www.oschina.net]


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

零基础学C语言

零基础学C语言

康莉//李宽 / 机械工业 / 2009-4 / 48.00元

《零基础学C语言》的特点是内容全面、翔实,通俗易懂,循序渐进地介绍了C语言各方面的知识,重点突出。《零基础学C语言》含有大量实例,代码短小精炼,紧扣所讲要点的本质,以加深读者的印象,同时结合笔者多年使用C语言的经验,阐述了很多代码编写技巧,读者可将代码复制到自己的机器上进行实验,自行实践和演练。C语言是编程方式灵活多样、功能强大、应用广泛的一种程序设计语言。从程序设计语言的发展历程来看,尽管后来出......一起来看看 《零基础学C语言》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

HEX HSV 转换工具
HEX HSV 转换工具

HEX HSV 互换工具

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具