Crawlab：基于 Golang 的分布式爬虫管理平台

栏目: IT技术 · 发布时间: 6年前

内容简介：中文 |基于Golang的分布式爬虫管理平台，支持Python、NodeJS、Go、Java、PHP等多种编程语言以及多种爬虫框架。

Crawlab

中文 | English

基于Golang的分布式爬虫管理平台，支持 Python 、NodeJS、 Go 、 Java 、 PHP 等多种编程语言以及多种爬虫框架。

查看演示 Demo | 文档

安装

三种方式:

Docker （推荐）
直接部署（了解内核）
Kubernetes (多节点部署)

要求（Docker）

Docker 18.03+
Redis 5.x+
MongoDB 3.6+
Docker Compose 1.24+ (可选，但推荐)

要求（直接部署）

Go 1.12+
Node 8.12+
Redis 5.x+
MongoDB 3.6+

快速开始

请打开命令行并执行下列命令。请保证您已经提前安装了 docker-compose 。

git clone https://github.com/crawlab-team/crawlab
cd crawlab
docker-compose up -d

接下来，您可以看看 docker-compose.yml (包含详细配置参数)，以及参考文档来查看更多信息。

运行

Docker

请用 docker-compose 来一键启动，甚至不用配置 MongoDB 和 Redis 数据库， 当然我们推荐这样做 。在当前目录中创建 docker-compose.yml 文件，输入以下内容。

version: '3.3'
services:
  master: 
    image: tikazyq/crawlab:latest
    container_name: master
    environment:
      CRAWLAB_SERVER_MASTER: "Y"
      CRAWLAB_MONGO_HOST: "mongo"
      CRAWLAB_REDIS_ADDRESS: "redis"
    ports:    
      - "8080:8080"
    depends_on:
      - mongo
      - redis
  mongo:
    image: mongo:latest
    restart: always
    ports:
      - "27017:27017"
  redis:
    image: redis:latest
    restart: always
    ports:
      - "6379:6379"

然后执行以下命令，Crawlab主节点＋MongoDB＋Redis就启动了。打开 http://localhost:8080 就能看到界面。

docker-compose up

Docker部署的详情，请见相关文档。

直接部署

请参考相关文档。

截图

首页

Crawlab：基于 Golang 的分布式爬虫管理平台

节点列表

Crawlab：基于 Golang 的分布式爬虫管理平台

节点拓扑图

Crawlab：基于 Golang 的分布式爬虫管理平台

爬虫列表

Crawlab：基于 Golang 的分布式爬虫管理平台

爬虫概览

Crawlab：基于 Golang 的分布式爬虫管理平台

爬虫分析

Crawlab：基于 Golang 的分布式爬虫管理平台

爬虫文件编辑

Crawlab：基于 Golang 的分布式爬虫管理平台

任务详情 - 抓取结果

Crawlab：基于 Golang 的分布式爬虫管理平台

定时任务

Crawlab：基于 Golang 的分布式爬虫管理平台

依赖安装

Crawlab：基于 Golang 的分布式爬虫管理平台

消息通知

Crawlab：基于 Golang 的分布式爬虫管理平台

架构

Crawlab的架构包括了一个主节点（Master Node）和多个工作节点（Worker Node），以及负责通信和数据储存的Redis和MongoDB数据库。

Crawlab：基于 Golang 的分布式爬虫管理平台

前端应用向主节点请求数据，主节点通过MongoDB和Redis来执行任务派发调度以及部署，工作节点收到任务之后，开始执行爬虫任务，并将任务结果储存到MongoDB。架构相对于 v0.3.0 之前的Celery版本有所精简，去除了不必要的节点监控模块Flower，节点监控主要由Redis完成。

主节点

主节点是整个Crawlab架构的核心，属于Crawlab的中控系统。

主节点主要负责以下功能:

爬虫任务调度
工作节点管理和通信
爬虫部署
前端以及API服务
执行任务（可以将主节点当成工作节点）

主节点负责与前端应用进行通信，并通过Redis将爬虫任务派发给工作节点。同时，主节点会同步（部署）爬虫给工作节点，通过Redis和MongoDB的GridFS。

工作节点

工作节点的主要功能是执行爬虫任务和储存抓取数据与日志，并且通过Redis的 PubSub 跟主节点通信。通过增加工作节点数量，Crawlab可以做到横向扩展，不同的爬虫任务可以分配到不同的节点上执行。

MongoDB

MongoDB是Crawlab的运行数据库，储存有节点、爬虫、任务、定时任务等数据，另外GridFS文件储存方式是主节点储存爬虫文件并同步到工作节点的中间媒介。

Redis

Redis是非常受欢迎的Key-Value数据库，在Crawlab中主要实现节点间数据通信的功能。例如，节点会将自己信息通过 HSET 储存在Redis的 nodes 哈希列表中，主节点根据哈希列表来判断在线节点。

前端

前端是一个基于 Vue-Element-Admin 的单页应用。其中重用了很多Element-UI的控件来支持相应的展示。

与其他框架的集成

Crawlab SDK 提供了一些 helper 方法来让您的爬虫更好的集成到 Crawlab 中，例如保存结果数据到 Crawlab 中等等。

集成 Scrapy

在 settings.py 中找到 ITEM_PIPELINES （ dict 类型的变量），在其中添加如下内容。

ITEM_PIPELINES = {
    'crawlab.pipelines.CrawlabMongoPipeline': 888,
}

然后，启动 Scrapy 爬虫，运行完成之后，您就应该能看到抓取结果出现在 任务详情-结果 里。

通用 Python 爬虫

将下列代码加入到您爬虫中的结果保存部分。

# 引入保存结果方法
from crawlab import save_item

# 这是一个结果，需要为 dict 类型
result = {'name': 'crawlab'}

# 调用保存结果方法
save_item(result)

然后，启动爬虫，运行完成之后，您就应该能看到抓取结果出现在 任务详情-结果 里。

其他框架和语言

爬虫任务本质上是由一个 shell 命令来实现的。任务ID将以环境变量 CRAWLAB_TASK_ID 的形式存在于爬虫任务运行的进程中，并以此来关联抓取数据。另外， CRAWLAB_COLLECTION 是Crawlab传过来的所存放collection的名称。

在爬虫程序中，需要将 CRAWLAB_TASK_ID 的值以 task_id 作为可以存入数据库中 CRAWLAB_COLLECTION 的collection中。这样Crawlab就知道如何将爬虫任务与抓取数据关联起来了。当前，Crawlab只支持MongoDB。

与其他框架比较

现在已经有一些爬虫管理框架了，因此为啥还要用Crawlab？

因为很多现有当平台都依赖于Scrapyd，限制了爬虫的编程语言以及框架，爬虫工程师只能用scrapy和python。当然，scrapy是非常优秀的爬虫框架，但是它不能做一切事情。

Crawlab使用起来很方便，也很通用，可以适用于几乎任何主流语言和框架。它还有一个精美的前端界面，让用户可以方便的管理和运行爬虫。

框架	类型	分布式	前端	依赖于Scrapyd
Crawlab	管理平台	Y	Y	N
ScrapydWeb	管理平台	Y	Y	Y
SpiderKeeper	管理平台	Y	Y	Y
Gerapy	管理平台	Y	Y	Y
Scrapyd	网络服务	Y	N	N/A

Q&A

1. 为何我访问 http://localhost:8080 提示访问不了？

假如您是 Docker 部署的，请检查一下您是否用了Docker Machine，这样的话您需要输入地址 http://192.168.99.100:8080 才行。

另外，请确保您用了 -p 8080:8080 来映射端口，并检查宿主机是否开放了8080端口。

2. 我可以看到登录页面了，但为何我点击登陆的时候按钮一直转圈圈？

绝大多数情况下，您可能是没有正确配置 CRAWLAB_API_ADDRESS 这个环境变量。这个变量是告诉前端应该通过哪个地址来请求API数据的，因此需要将它设置为宿主机的IP地址＋端口，例如 192.168.0.1:8000 。接着，重启容器，在浏览器中输入宿主机IP＋端口，就可以顺利登陆了。

请注意，8080是前端端口，8000是后端端口，您在浏览器中只需要输入前端的地址就可以了，要注意区分。