手把手教你如何新建scrapy爬虫框架的第一个项目(下)

栏目: 编程工具 · 发布时间: 5年前

内容简介:前几天小编带大家学会了如何在我们创建好Scrapy爬虫项目之后,会得到上图中的提示,大意是让我们直接根据模板进行创建Scrapy项目。根据提示,我们首先运行“cd article”命令,意思是打开或者进入到article文件夹下,尔后执行命令“scrapy genspider jobbole blog.jobbole.com”,代表通过Scrapy中自带的basic模板进行创建Scrapy项目,如下图所示。

前几天小编带大家学会了如何 在Scrapy框架下创建属于自己的第一个爬虫项目(上) ,今天我们进一步深入的了解Scrapy爬虫项目创建,这里以伯乐在线网站的所有文章页为例进行说明。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

在我们创建好Scrapy爬虫项目之后,会得到上图中的提示,大意是让我们直接根据模板进行创建Scrapy项目。根据提示,我们首先运行“cd article”命令,意思是打开或者进入到article文件夹下,尔后执行命令“scrapy genspider jobbole blog.jobbole.com”,代表通过Scrapy中自带的basic模板进行创建Scrapy项目,如下图所示。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

根据提示,该模板创建的位置为article.spiders.jobbole,此时再次输入tree /f命令可以查看到除了之前创建Scrapy爬虫项目的基础文件之外,在spiders文件夹下确实是多了一个jobbole.py文件,如下图所示。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

当然了,爬虫模板不一定非得用Scrapy爬虫项目自带的模板,也可以自定义的进行创建,但是基本上Scrapy提供的模板是足够使用的了。

接下来,将整个爬虫项目导入到Pycharm中去,点击左上方“file”à“open”,找到爬虫项目创建的文件夹,点击确认即可。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

如果在Pycharm中的spiders文件夹下看不到jobbole.py这个文件的话,则先选中spiders文件夹,尔后右键,点击“Synchronize spider”,代表与spiders文件夹进行同步的意思,尔后便可以看到jobbole.py就会被加载出来。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

点击jobbole.py文件进行查看内容,如下图所示。可以看到该文件已经默认的填充了部分 Python 代码,其实是从源模板中进行复制创建的。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

可以看到该文件中有当前Scrapy爬虫项目的名字name,Scrapy爬虫项目所允许的域名范围allowed_domains,以及Scrapy爬虫项目的起始URL,即start_urls。

接下来最后检查一下该项目的Python解释器,点击Pycharm的setting,然后输入“interpreter”,找到解释器所在的位置,如下图所示。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

如果“Project Interpreter”显示出来的解释器不是当前项目下的虚拟环境,则点击“Project Interpreter”的右侧的设置按钮,如下图所示。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

然后点击“Add local”,如下图所示。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

找到该项目对应的虚拟环境Python解释器,进行添加即可,如下图所示。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

至此,Scrapy爬虫虚拟环境创建、Scrapy爬虫项目的创建以及Scrapy爬虫项目导入到Pycharm中以及解释器的配置已经完成,接下来我们要开始写入爬虫逻辑,以及数据提取等,敬请期待~~

对爬虫感兴趣的小伙伴,欢迎来Github: https://github.com/cassieeric ,喜欢的话记得给个star噢~~ 手把手教你如何新建scrapy爬虫框架的第一个项目(下)

本文由dcpeng 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。

转载、引用前需联系作者,并署名作者且注明文章出处。

本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

引爆点

引爆点

【加】马尔科姆•格拉德威尔(Malcolm Gladwell) / 钱清、覃爱冬 / 中信出版社 / 2014-4 / 36.00元

《引爆点》是《纽约客》怪才格拉德威尔的一部才华横溢之作。他以社会上突如其来的流行潮为切入点,从全新角度探索了控制科学和营销模式。他认为,思想、行为、信息及产品常会像传染病暴发一样迅速传播。正如一个病人就能引起全城流感;几位涂鸦爱好者能在地铁掀起犯罪浪潮;一位满意而归的顾客还能让新开张的餐馆座无虚席;发起小规模流行的团队能引发大规模流行风暴。这些现象均属“社会流行潮”,它达到临界水平并爆发的那一刻,......一起来看看 《引爆点》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

在线进制转换器
在线进制转换器

各进制数互转换器

MD5 加密
MD5 加密

MD5 加密工具