Python scrapy 使用记录

内容简介：Python scrapy 使用记录

安装配置好pip，安装scrapy

pip install scrapy

win7环境

IDE PyCharm

遇到错误： No module named 'win32api'

pip install pypiwin32

PyCharm自带命令行中使用scrapy shell，适合于调试

scrapy shell http://quotes.toscrape.com/tag/humor/

# 使用本地网页
scrapy shell ./web_source/a118335.html

scrapy新建项目例如新建一个 tutorial项目

scrapy startproject tutorial

分析本地网页

使用 shell 分析本地某个网页

# 使用本地网页
scrapy shell ./web_source/a118335.html
res = response 

# 获取h1作为title
title = res.css('h1.nameSingle')

title.css('a::text').extract_first()
# '進撃の巨人 Season 2'

title.css('a::attr(href)').extract_first()

title.css('a::attr(title)').extract_first()
# '进击的巨人 第二季'

title.css('small::text').extract_first()
# 'TV'

# 获取信息表
info = res.css('div.infobox')

# 获取封面图片地址
info.css('a::attr(href)').extract_first()

info.css('li')[0].css('span::text').extract_first()
# '中文名: '

info.css('li')[0].css('li::text').extract_first()
# '进击的巨人 第二季'

在scrapy中使用

import scrapy


class AnimeSpider(scrapy.Spider):
    name = "bang"

    start_urls = [
        'file://H/fisher_p/crawl-anime/web_source/a118335.html',
    ]

    def parse(self, response):
        res = response

        # 获取h1作为title 抓取基本信息
        title = res.css('h1.nameSingle')
        name_jp = title.css('a::text').extract_first()
        a_link = title.css('a::attr(href)').extract_first()
        bang_id = str(a_link).split('/')[-1]
        name_zh = title.css('a::attr(title)').extract_first()
        sub_title = title.css('small::text').extract_first()
        print(name_jp + " , " + name_zh + " , " + bang_id + " , " + sub_title)

        # 获取信息表
        info = res.css('div.infobox')

        pic_link = info.css('a::attr(href)').extract_first()  # 获取封面图片地址
        print("pic link: " + pic_link)
        for li in info.css('li'):
            info_title = li.css('span.tip::text').extract_first()
            info_content_href = li.css('a').extract_first()
            if info_content_href is None:
                info_contents = li.css('li::text').extract_first()
            else:
                # 若是链接 将其中的信息提取拼接成一个字符串
                people_bang_id = str(li.css('a::attr(href)').extract_first()).split("/")[-1]
                info_contents = li.css('a::text').extract_first() + "|" + people_bang_id
            print(info_title + " " + str(info_contents))

执行爬虫

scrapy crawl bang--nolog

scrapy 下载图片并重命名

让scrapy下载图片，并重命名目标图片

以某个图片爬虫为例。在scrapy工程中需要的文件有

├── proj_name  # 工程
│   ├── __init__.py  # 初始化
│   ├── items.py  # 定义图片类的地方
│   ├── middlewares.py
│   ├── pipelines.py  # 执行保存文件的地方
│   ├── settings.py  # 配置文件 比如图片下载目录
│   └── spiders
│       ├── _pic_spider.py  # 图片爬虫

图片下载爬虫。这里我事先已将所有的图片链接存了起来，爬虫自己读取预先存好的链接

# _pic_spider.py # 图片爬虫
class CoverPicSpider(scrapy.Spider):
    name = "bpic"
    start_urls = []  # 这里装的是图片的链接

    def parse(self, res):
        bang_id = res.url.split("/")[-1].split("_")[0]
        item = AnimeBangCoverPicItem()  # 自定义的一个类 表示图片
        item['file_name'] = "p_" + bang_id + ".jpg"
        item['image_urls'] = [res.url]  # Must be a list
        yield item

配置一个文件名

# items.py
# 定义一个图片类
class AnimeBangCoverPicItem(scrapy.Item):
    image_urls = scrapy.Field()
    images = scrapy.Field()
    file_name = scrapy.Field()

在 Pipeline 中重命名图片。重写方法 file_path ，返回我们自定义的文件名

# pipelines.py # 执行保存文件的地方
from scrapy.exceptions import DropItem
from scrapy.pipelines.images import ImagesPipeline

class AnimeBangCoverPicPipeline(ImagesPipeline):
    def get_media_requests(self, item, info):
        for image_url in item['image_urls']:
            # 传入目标文件名
            yield scrapy.Request(image_url, meta={'item': item, 'file_name': item['file_name']})

    # 重写这个方法来自定义文件名
    def file_path(self, request, response=None, info=None):
        return request.meta['file_name']

    def item_completed(self, results, item, info):
        image_paths = [x['path'] for ok, x in results if ok]
        if not image_paths:
            raise DropItem("Item contains no images")
        return item

设置图片存储目录，设置DOWNLOAD_DELAY

# settings.py
ITEM_PIPELINES = {
    'bang.pipelines.AnimeBangCoverPicPipeline': 1,

}
IMAGES_STORE = '../res_data/anime_pic/'
DOWNLOAD_DELAY = 0.25

启动爬虫即可开始下载图片

以上所述就是小编给大家介绍的《Python scrapy 使用记录》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

活着就为改变世界

[美] 杰弗里·扬、威廉·西蒙 / 蒋永军 / 中信出版社 / 2010-6 / 39.00元

内容简介苹果公司CEO史蒂夫•乔布斯这个一直活在自己想象的世界里的创业奇才，经历过各种挫折与失落，但他那无所畏惧、敢于承担的个性让他一直努力实践着自己的价值观，总能为他的离奇想法找到解决问题的办法。本书两位作者通过深入访谈和资料调查，揭秘了许多乔布斯个人的创业经历和家庭变故，为大家塑造了一个活生生的“乔布斯式”的鲜活人物，描述了一个个充满传奇色彩的商业奇迹，真实地再现了乔布斯几十年......一起来看看《活着就为改变世界》这本书的介绍吧!

码农工具

Python scrapy 使用记录

分析本地网页

scrapy 下载图片并重命名

活着就为改变世界

XML、JSON 在线转换

Markdown 在线编辑器

RGB CMYK 转换工具