内容简介:重磅干货,第一时间送达作者:JAP君 转自:JAVAandPython君
点击上方“ Python数据科学 ”,选择“星标”公众号
重磅干货,第一时间送达
作者:JAP君 转自:JAVAandPython君
1.预备知识
“
今天咱们来扯一扯分布式进程爬虫,对爬虫有所了解的都知道分布式爬虫这个东东,今天我们来搞懂一下分布式这个概念,从字面上看就是分开来布置,确实如此它是可以分开来运作的。
分布式进程就是将进程分布到多台机器上去,充分利用每一台机器来完成我们的爬虫任务。分布式进程需要用到multiprocessing模板,multiprocessing模板不但支持多进程,它的managers子模块还支持把多进程分布到多台机器上。
我们可以写一个服务进程作为调度者,然后将我们的爬虫任务分布给其他的多个进程当中去,我们依靠网络通信来管理这些进程。
”
2.模拟一个分布式进程爬虫
我们来模拟进行一个分布式进程的爬虫吧,就比如我们需要抓取某个图片网站的所有图片,如果用我们的分布式进程的思想,我们会创建一个进程负责抓取图片的链接地址,然后将这些链接地址存放到Queue中,另外的进程负责从Queue中读取链接进行图片的下载或者进行其他操作(存在本地).
其实我们的Queue是暴露在网络中的,通过分布式就是将其进行了封装,其实也就是所谓的本地队列的网络化。
接下来,我们来分析一下如何去创建一个分布式的服务进程,总体可以分为六步:
-
首先我们需要建立一个队列queue,这个主要用作进程之间的通信。总体来说就是两种进程,一种是服务进程,一种是任务进程。服务进程创建任务队列task_queue,用作传递任务给任务进程的通道。服务进程又创建result_queue,作为任务进程完成任务后回复服务进程的通道。在分布式进程的环境下,我们需要通过Queuemanager 获得的Queue接口来添加任务。
-
把我们在第一步中队列在网络上进行注册,暴露给其他的进程或者主机,注册后获得网络队列,相当于本地队列的映像。
-
建立Queuemanager的对象,并且实例化,绑定端口和口令
-
启动第三步中建立的实例,即启动管理manager,监管信息通道
-
通过管理实例的方法获取到通过网络访问的queue对象,也就是把网络对象实体化成本地的一个队列。
-
创建任务到“本地”队列中,自动上传任务到网络队列中,分配给任务进程进行处理。
我们就来写一下服务进程的代码 taskManager.py:
import queue
from multiprocessing.managers import BaseManager
from multiprocessing import freeze_support
# 任务个数
task_num = 500
# 定义收发队列
task_queue = queue.Queue(task_num)
result_queue = queue.Queue(task_num)
def get_task():
return task_queue
def get_result():
return result_queue
# 创建类似的QueueManager
class QueueManager(BaseManager):
pass
def run():
# Windows下绑定调用接口不能使用lambda,所以只能先定义函数再绑定
QueueManager.register('get_task_queue', callable = get_task)
QueueManager.register('get_result_queue', callable=get_result)
#绑定端口并设置验证口令,windows下需要填写ip地址,Linux中不填默认为本地
manager = QueueManager(address=('127.0.0.1', 8001), authkey='jap'.encode('utf-8'))
# 启动
manager.start()
try:
# 通过网络获取任务队列和结果队列
task = manager.get_task_queue()
result = manager.get_result_queue()
# 添加任务
for url in ["JAP君url:"+str(i) for i in range(500)]:
print("添加任务 %s" %url)
task.put(url)
print("正在获取结果...")
for i in range(500):
print("result is %s" %result.get(timeout=10))
except:
print('Manager error')
finally:
# 一定要关闭,否则会报管道未关闭的错
manager.shutdown()
if __name__ == '__main__':
# windows下多进程可能会出现问题,添加这句话可以解决
freeze_support()
run()
上面就是我们的服务进程,我把解析都写在了里面,大家可以仔细看一下,接下来我们来写任务进程(taskWorker),创建任务进程也比较简单,只有简单的四步:
1. 创建一个类似的QueueManager对象,使用QueueManager注册用于获取queue的方法名称,任务进程只能通过名称来在网络上获取queue,所以这里一定要注意服务端和任务端的名称要相同。
2. 链接服务器,端口和指令一定要与服务端相同
3. 从网络上获取queue,并且将其本地化。
4. 从task对列中获取任务,并且把结果写入result对列。
import time
from multiprocessing.managers import BaseManager
# 创建类似的QueueManager
class QueueManager(BaseManager):
pass
# 第一步:使用QueueManager注册用于获取Queue的方法名称
QueueManager.register('get_task_queue')
QueueManager.register('get_result_queue')
# 第二步:链接到服务器
server_addr = '127.0.0.1'
print('Connect to server %s' %server_addr)
# 端口和验证的口令一定要保证相同
m = QueueManager(address = (server_addr, 8001), authkey='jap'.encode('utf-8'))
# 从网络连接:
m.connect()
# 第三步:获取queue的对象
task = m.get_task_queue()
result = m.get_result_queue()
# 第四部:从task队列中获取任务,并把结果写入result队列
while(not task.empty()):
url = task.get(True, timeout = 5)
print("run task download %s" %url)
time.sleep(1)
# 将结果写入result队列
result.put("%s --->success" %url)
print("exit")
详细的步骤也写在里面了,当然这个任务队列,我们是可以创建多个的,每个任务进程都会完成自己的事,而不会干扰其他的任务进程,这也就让我们的url不会重复的去爬取,从而完美的实现了多个进程来爬取我们的任务。
以上就是一个非常简单的分布式进程的爬虫小案例,大家可以通过这种方式去实战自己的一个小项目,在这里还说一下,我们是可以将我们的任务分布到多台机器上的,这样我们就实现了大规模的爬取。
专注于数据科学领域的知识分享
欢迎在文章下方留言与交流
推荐阅读
越来越像 Linux 了!Windows 系统 5 月更新让 Python 开箱即用
李宏毅:1 天搞懂深度学习,我总结了 300 页 PPT(附思维导图)
干货 | 19款最好用的免费数据挖掘 工具 大汇总
Python排序傻傻分不清?一文看透sorted与sort用法
觉得不错,不妨点个 好看 :heart:
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 装个虚拟机,然后拿来玩爬虫!也是极好的!Scrapy分布式爬虫!
- 分布式爬虫对新站的协助
- 分布式通用爬虫框架Crawlab
- 如何构建一个分布式爬虫:基础篇
- 基于redis的分布式爬虫实现方案
- 使用Docker Swarm搭建分布式爬虫集群
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
正则表达式必知必会
Ben Forta / 杨涛、王建桥、杨晓云 / 人民邮电出版社 / 2007 / 29.00元
正则表达式是一种威力无比强大的武器,几乎在所有的程序设计语言里和计算机平台上都可以用它来完成各种复杂的文本处理工作。本书从简单的文本匹配开始,循序渐进地介绍了很多复杂内容,其中包括回溯引用、条件性求值和前后查找,等等。每章都为读者准备了许多简明又实用的示例,有助于全面、系统、快速掌握正则表达式,并运用它们去解决实际问题。 本书适合各种语言和平台的开发人员。一起来看看 《正则表达式必知必会》 这本书的介绍吧!