scrapy+splash 爬取动态网站(JS)

栏目: 编程工具 · 发布时间: 8年前

内容简介:scrapy+splash 爬取动态网站(JS)

scrapy只支持静态网页的抓取,通过scrapy-splash,能实现对JavaScript的解析。

一、搭建 Docker 服务器

Docker的相关知识参考本站的Docker相关文章。

Scrapy-Splash采用Splash HTTP API,需要搭建一个Splash实例,用Docker搭建最方便:

$ docker run-d-p 8050:8050 --restart=always --name=splash scrapinghub/splash

在服务器运行好Docker后,就可以通过IP+端口(例如: http://123.206.211.100:8050 )访问了。

二、Scrapy项目

1,安装scrapy-splash

$ pip install scrapy-splash

2,配置(setting.py)

增加Splash服务器地址

SPLASH_URL = 'http://123.206.211.100:8050'

开启Splash中间件

DOWNLOADER_MIDDLEWARES = {
    'scrapy_splash.SplashCookiesMiddleware': 723,
    'scrapy_splash.SplashMiddleware': 725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
    ...
}

其它设置

DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'
SPLASH_COOKIES_DEBUG = True

3,spider.py使用SplashRequest

import scrapy
from scrapy_splash import SplashRequest

class SpiderS1(scrapy.Spider):

    name = "s1_spider"

    def start_requests(self):
    	
    	urls = ['http://sports.sina.com.cn/g/seriea/2017-05-23/doc-ifyfkqiv6736172.shtml',
                'http://sports.sina.com.cn/basketball/nba/2017-05-23/doc-ifyfkqiv6683532.shtml']
    	
        requests = []
        for url in urls:
       	    url = url.strip()
       	    request = SplashRequest(url, callback=self.parse, args={'wait':3})
        	requests.append(request)
        return requests
    
    def parse(self, response):
        self.log(response.url)
        ...

使用非常简单,具体请求参数参考 Scrapy&JavaScript integration through Splash


以上所述就是小编给大家介绍的《scrapy+splash 爬取动态网站(JS)》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

妙趣横生的算法(C++语言实现)

妙趣横生的算法(C++语言实现)

胡浩 / 清华大学出版社 / 2014-10-1 / 59.80元

《妙趣横生的算法(C++语言实现)》内容丰富,生动有趣,寓教于乐,旨在帮助读者学习数据结构和算法的相关知识,从而开阔眼界,培养编程兴趣,提高编程能力,增强求职的竞争力。如果您想提高自己对算法和数据结构的理解能力,在程序设计之路上走得更远,那么请翻开《妙趣横生的算法(C++语言实现)》,仔细研读吧,它将助您一臂之力。 《妙趣横生的算法(C++语言实现)》以通俗易懂的语言深入浅出地介绍了常用的数......一起来看看 《妙趣横生的算法(C++语言实现)》 这本书的介绍吧!

HTML 编码/解码
HTML 编码/解码

HTML 编码/解码

URL 编码/解码
URL 编码/解码

URL 编码/解码

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具