python爬虫 | 一文搞懂分布式进程爬虫

栏目: Python · 发布时间: 5年前

内容简介：重磅干货，第一时间送达作者：JAP君转自：JAVAandPython君

点击上方“ Python数据科学 ”，选择“星标”公众号

重磅干货，第一时间送达

作者：JAP君转自：JAVAandPython君

1.预备知识

“

今天咱们来扯一扯分布式进程爬虫，对爬虫有所了解的都知道分布式爬虫这个东东，今天我们来搞懂一下分布式这个概念，从字面上看就是分开来布置，确实如此它是可以分开来运作的。

分布式进程就是将进程分布到多台机器上去，充分利用每一台机器来完成我们的爬虫任务。分布式进程需要用到multiprocessing模板，multiprocessing模板不但支持多进程，它的managers子模块还支持把多进程分布到多台机器上。

我们可以写一个服务进程作为调度者，然后将我们的爬虫任务分布给其他的多个进程当中去，我们依靠网络通信来管理这些进程。

”

2.模拟一个分布式进程爬虫

我们来模拟进行一个分布式进程的爬虫吧，就比如我们需要抓取某个图片网站的所有图片，如果用我们的分布式进程的思想，我们会创建一个进程负责抓取图片的链接地址，然后将这些链接地址存放到Queue中，另外的进程负责从Queue中读取链接进行图片的下载或者进行其他操作（存在本地）.

其实我们的Queue是暴露在网络中的，通过分布式就是将其进行了封装，其实也就是所谓的本地队列的网络化。

接下来，我们来分析一下如何去创建一个分布式的服务进程，总体可以分为六步：

首先我们需要建立一个队列queue，这个主要用作进程之间的通信。总体来说就是两种进程，一种是服务进程，一种是任务进程。服务进程创建任务队列task_queue，用作传递任务给任务进程的通道。服务进程又创建result_queue，作为任务进程完成任务后回复服务进程的通道。在分布式进程的环境下，我们需要通过Queuemanager 获得的Queue接口来添加任务。
把我们在第一步中队列在网络上进行注册，暴露给其他的进程或者主机，注册后获得网络队列，相当于本地队列的映像。
建立Queuemanager的对象，并且实例化，绑定端口和口令
启动第三步中建立的实例，即启动管理manager，监管信息通道
通过管理实例的方法获取到通过网络访问的queue对象，也就是把网络对象实体化成本地的一个队列。
创建任务到“本地”队列中，自动上传任务到网络队列中，分配给任务进程进行处理。

我们就来写一下服务进程的代码 taskManager.py:

import queue

from multiprocessing.managers import BaseManager

from multiprocessing import freeze_support

# 任务个数

task_num = 500

# 定义收发队列

task_queue = queue.Queue(task_num)

result_queue = queue.Queue(task_num)

def get_task():

return task_queue

def get_result():

return result_queue

# 创建类似的QueueManager

class QueueManager(BaseManager):

pass

def run():

# Windows下绑定调用接口不能使用lambda，所以只能先定义函数再绑定

QueueManager.register('get_task_queue', callable = get_task)

QueueManager.register('get_result_queue', callable=get_result)

#绑定端口并设置验证口令，windows下需要填写ip地址，Linux中不填默认为本地

manager = QueueManager(address=('127.0.0.1', 8001), authkey='jap'.encode('utf-8'))

# 启动

manager.start()

try:

# 通过网络获取任务队列和结果队列

task = manager.get_task_queue()

result = manager.get_result_queue()

# 添加任务

for url in ["JAP君url:"+str(i) for i in range(500)]:

print("添加任务 %s" %url)

task.put(url)

print("正在获取结果...")

for i in range(500):

print("result is %s" %result.get(timeout=10))

except:

print('Manager error')

finally:

# 一定要关闭，否则会报管道未关闭的错

manager.shutdown()

if __name__ == '__main__':

# windows下多进程可能会出现问题，添加这句话可以解决

freeze_support()

run()

上面就是我们的服务进程，我把解析都写在了里面，大家可以仔细看一下，接下来我们来写任务进程（taskWorker），创建任务进程也比较简单，只有简单的四步：

1. 创建一个类似的QueueManager对象，使用QueueManager注册用于获取queue的方法名称，任务进程只能通过名称来在网络上获取queue，所以这里一定要注意服务端和任务端的名称要相同。

2. 链接服务器，端口和指令一定要与服务端相同

3. 从网络上获取queue，并且将其本地化。

4. 从task对列中获取任务，并且把结果写入result对列。

import time

from multiprocessing.managers import BaseManager

# 创建类似的QueueManager

class QueueManager(BaseManager):

pass

# 第一步：使用QueueManager注册用于获取Queue的方法名称

QueueManager.register('get_task_queue')

QueueManager.register('get_result_queue')

# 第二步：链接到服务器

server_addr = '127.0.0.1'

print('Connect to server %s' %server_addr)

# 端口和验证的口令一定要保证相同

m = QueueManager(address = (server_addr, 8001), authkey='jap'.encode('utf-8'))

# 从网络连接:

m.connect()

# 第三步：获取queue的对象

task = m.get_task_queue()

result = m.get_result_queue()

# 第四部：从task队列中获取任务，并把结果写入result队列

while(not task.empty()):

url = task.get(True, timeout = 5)

print("run task download %s" %url)

time.sleep(1)

# 将结果写入result队列

result.put("%s --->success" %url)

print("exit")

详细的步骤也写在里面了，当然这个任务队列，我们是可以创建多个的，每个任务进程都会完成自己的事，而不会干扰其他的任务进程，这也就让我们的url不会重复的去爬取，从而完美的实现了多个进程来爬取我们的任务。

以上就是一个非常简单的分布式进程的爬虫小案例，大家可以通过这种方式去实战自己的一个小项目，在这里还说一下，我们是可以将我们的任务分布到多台机器上的，这样我们就实现了大规模的爬取。

专注于数据科学领域的知识分享

欢迎在文章下方留言与交流

生物信息学算法导论

N.C.琼斯 / 第1版 (2007年7月1日) / 2007-7 / 45.0

这是一本关于生物信息学算法和计算思想的导论性教科书，原著由国际上的权威学者撰写，经国内知名专家精心翻译为中文，系统介绍推动生物信息学不断进步的算法原理。全书强调的是算法中思想的运用，而不是对表面上并不相关的各类问题进行简单的堆砌。体现了以下特色：阐述生物学中的相关问题，涉及对问题的模型化处理并提供一种或多种解决方案：简要介绍生物信息学领域领军人物；饶有趣味的小插图使得概念更加具体和形象，方......一起来看看《生物信息学算法导论》这本书的介绍吧!

码农工具

python爬虫 | 一文搞懂分布式进程爬虫

生物信息学算法导论

SHA 加密

XML 在线格式化

RGB CMYK 转换工具