Callback ——从同步思维切换到异步思维

栏目: IT技术 · 发布时间: 5年前

摄影：产品经理

薄如蝉翼

我们平时使用Requests的时候，一般是这样写代码的：

import requests

def parse(html):
    print('对 html 进行处理')

html = requests.get('url')
parse(html)

这是一种非常常见的直线性思维，我先请求网站拿到 html，然后我再把 html 传给负责处理的函数。在整个过程中，“我“担任着调度的角色。

在这种思维方式的影响下，有些同学即使在使用 aiohttp 写异步爬虫，也是这样写的：

import aiohttp
import asyncio


async def request(url):
    async with aiohttp.ClientSession() as session:
        resp = await session.get(url)
        html = await resp.text(encoding='utf-8')

def parse(html):
    print('处理 html')


async def main():
    url_list = [url1, url2, url3, url4]
    tasks = []
    for url in url_list:
        tasks.append(request(url))
    html_list = await asyncio.gather(*tasks)
    for html in html_list:
        parse(html)


if __name__ == '__main__':
    asyncio.run(main())

确实，这些 URL 的网络请求是异步了，但是却必须等到所有 URL 全部请求完成以后，才能开始处理这些 HTML。假如其中一个 URL 访问只需要1秒钟，其他的 URL 请求需要3秒钟。那么这个1秒钟的请求结束以后，还需要等待2秒，才能开始进行处理。

于是，有些同学会修改代码，多包装一层函数：

import aiohttp
import asyncio


async def request(url):
    async with aiohttp.ClientSession() as session:
        resp = await session.get(url)
        html = await resp.text(encoding='utf-8')

def parse(html):
    print('处理 html')

async def get(url):
    html = await request(url)
    parse(html)

async def main():
    url_list = [url1, url2, url3, url4]
    tasks = []
    for url in url_list:
        tasks.append(get(url))
    await asyncio.gather(*tasks)


if __name__ == '__main__':
    asyncio.run(main())

get() 函数整体负责获取一个 URL 的源代码并对它进行解析。然后让 get() 函数异步。

这样做确实能够解决问题，但是大家如果仔细体会就会发现，在 get() 函数里面的代码写法，还是用的同步处理的思想。

既然要写异步代码，那么我们脑子里就要一直记住——很多个请求会同时发出，但是我们并不知道他们什么时候完成。与其让我们去等待它完成，然后再把完成结果传给另外一个函数。不如让这些请求在结束的时候，自行主动把结果传给处理函数。

有了这种思想以后，我们再来修改一下上面的代码：

import aiohttp
import asyncio


async def request(url, callback):
    async with aiohttp.ClientSession() as session:
        resp = await session.get(url)
        html = await resp.text(encoding='utf-8')
    callback(html)


def parse(html):
    print('处理 html: ', html)


async def main():
    url_list = [
 'http://exercise.kingname.info/exercise_middleware_ip/1',
 'http://exercise.kingname.info/exercise_middleware_ip/2',
 'http://exercise.kingname.info/exercise_middleware_ip/3',
 'http://exercise.kingname.info/exercise_middleware_ip/4',
 'http://exercise.kingname.info/exercise_middleware_ip/5',
 'http://exercise.kingname.info/exercise_middleware_ip/6',
 ]
    tasks = []
    for url in url_list:
        tasks.append(request(url, parse))
    await asyncio.gather(*tasks)


if __name__ == '__main__':
    asyncio.run(main())

运行效果如下图所示：

这种写法，初看起来与用 get() 函数包装没什么区别，但是他们在思维方式上却完全不一样。

这种不一样，接下来的几篇文章会进一步演示。

友情提示，五一高能预警。

往期文章

Pandas时间序列数据操作

Matplotlib中的plt和ax都是啥？

Numpy和Pandas性能改善的方法和技巧

漂亮~pandas可以无缝衔接Bokeh

YelpDaset: 酒店管理类数据集10+G

你点的每个“在看”，是对我最大的鼓励

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

基于模型的设计

2011-8 / 69.00元

《基于模型的设计:MSP430/F28027/F28335DSP篇》的最大特色就是软硬件结合，在使用最新版本Simulink的基础上，结合多型号板卡实现设计开发。书中不仅详细剖析了MSP430／F28027／F28335板卡功能，而且使用Simulink演示了从建模到模型验证、从定点设计到处理器在环、从代码生成到硬件联调等诸多方面，内容充实，确实是一本学习基于模型设计进行DSP开发的较为理想的工程......一起来看看《基于模型的设计》这本书的介绍吧!

码农工具

Callback ——从同步思维切换到异步思维

往期文章

基于模型的设计

在线进制转换器

图片转BASE64编码

HEX HSV 转换工具