内容简介:PyCharm下进行Scrapy项目的调试
PyCharm下进行Scrapy项目的调试,可以在爬虫项目的根目录创建一个main.py,然后在PyCharm设置下运行路径,那么就不用每次都在命令行运行代码,直接运行main.py就能启动爬虫了。
1、首先创建一个Scrapy项目:
在命令行输入:
scrapy startproject project_name
project_name为项目名称,比如我的项目名称为py_scrapyjobbole,生成的目录为:
2、创建新的Spider
在命令行输入:
scrapy genspider jobbole(spider名称) blog.jobbole.com(爬取的起始url)
# -*- coding: utf-8 -*-
import scrapy
class JobboleSpider(scrapy.Spider):
name = 'jobbole'
allowed_domains = ['blog.jobbole.com']
start_urls = ['http://blog.jobbole.com/111322/']
def parse(self, response):
re_select = response.xpath('//*[@id="post-111322"]/div[1]/h1')
pass
3、配置setting.py文件(这步很重要)
BOT_NAME = 'py_scrapyjobbole' SPIDER_MODULES = ['py_scrapyjobbole.spiders'] NEWSPIDER_MODULE = 'py_scrapyjobbole.spiders' # Crawl responsibly by identifying yourself (and your website) on the user-agent # USER_AGENT = 'py_scrapyjobbole (+http://www.yourdomain.com)' # Obey robots.txt rules ROBOTSTXT_OBEY = False
ROBOTSTXT_OBEY = False 一定要设置成 False,断点调试才能正常进行。 <>
4、在工程目录下建立main.py文件,稍后将会在这里面进行调试!
from scrapy.cmdline import execute
import sys
import os
# 打断点调试py文件
# sys.path.append('D:\PyCharm\py_scrapyjobbole')
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
print(os.path.dirname(os.path.abspath(__file__)))
execute(['scrapy', 'crawl', 'jobbole'])
5、进行断点调试
附录
xpath相关知识
在用Scrapy进行数据爬取时可能会用到xpath相关知识,所以简单地展示一张图:
在这里面值得注意的是‘’/“和”//“的区别!
/:代表子元素,选取的元素必须是父子关系
//:代表所有后代元素,选取的元素不一定是父子关系,只要是后代元素即可
不过,大家要是觉得难的话,也可以利用chrome的元素查找功能进行xpath路径的复制:
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- IntelliJ IDEA 进行远程调试技巧
- [译] 使用 GoLand 进行调试的要点
- 使用 C-Reduce 进行调试
- 使用Puppeteer进行数据抓取(四)——快速调试
- 云原生时代如何方便的进行本地调试
- 如何使用IntelliJ IDEA进行远程调试
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
产品心经:产品经理应该知道的60件事(第2版)
闫荣 / 机械工业出版社 / 2016-4 / 69.00
本书第一版出版后广获好评,应广大读者要求,作者把自己在实践中新近总结的10个关于产品的最佳实践融入到了这本新书中。这"10件事"侧重于深挖产品需求和产品疯传背后的秘密,配合之前的"50件事",不仅能帮产品经理打造出让用户尖叫并疯传的产品,还能帮助产品经理迅速全方位提升自己的能力。 本书作者有超过10年的产品工作经验,在互联网产品领域公认的大咖,这本书从产品经理核心素养、产品认知、战略与规划、......一起来看看 《产品心经:产品经理应该知道的60件事(第2版)》 这本书的介绍吧!
RGB转16进制工具
RGB HEX 互转工具
html转js在线工具
html转js在线工具