手把手教你如何新建scrapy爬虫框架的第一个项目(下)

栏目: 编程工具 · 发布时间: 5年前

内容简介:前几天小编带大家学会了如何在我们创建好Scrapy爬虫项目之后,会得到上图中的提示,大意是让我们直接根据模板进行创建Scrapy项目。根据提示,我们首先运行“cd article”命令,意思是打开或者进入到article文件夹下,尔后执行命令“scrapy genspider jobbole blog.jobbole.com”,代表通过Scrapy中自带的basic模板进行创建Scrapy项目,如下图所示。

前几天小编带大家学会了如何 在Scrapy框架下创建属于自己的第一个爬虫项目(上) ,今天我们进一步深入的了解Scrapy爬虫项目创建,这里以伯乐在线网站的所有文章页为例进行说明。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

在我们创建好Scrapy爬虫项目之后,会得到上图中的提示,大意是让我们直接根据模板进行创建Scrapy项目。根据提示,我们首先运行“cd article”命令,意思是打开或者进入到article文件夹下,尔后执行命令“scrapy genspider jobbole blog.jobbole.com”,代表通过Scrapy中自带的basic模板进行创建Scrapy项目,如下图所示。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

根据提示,该模板创建的位置为article.spiders.jobbole,此时再次输入tree /f命令可以查看到除了之前创建Scrapy爬虫项目的基础文件之外,在spiders文件夹下确实是多了一个jobbole.py文件,如下图所示。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

当然了,爬虫模板不一定非得用Scrapy爬虫项目自带的模板,也可以自定义的进行创建,但是基本上Scrapy提供的模板是足够使用的了。

接下来,将整个爬虫项目导入到Pycharm中去,点击左上方“file”à“open”,找到爬虫项目创建的文件夹,点击确认即可。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

如果在Pycharm中的spiders文件夹下看不到jobbole.py这个文件的话,则先选中spiders文件夹,尔后右键,点击“Synchronize spider”,代表与spiders文件夹进行同步的意思,尔后便可以看到jobbole.py就会被加载出来。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

点击jobbole.py文件进行查看内容,如下图所示。可以看到该文件已经默认的填充了部分 Python 代码,其实是从源模板中进行复制创建的。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

可以看到该文件中有当前Scrapy爬虫项目的名字name,Scrapy爬虫项目所允许的域名范围allowed_domains,以及Scrapy爬虫项目的起始URL,即start_urls。

接下来最后检查一下该项目的Python解释器,点击Pycharm的setting,然后输入“interpreter”,找到解释器所在的位置,如下图所示。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

如果“Project Interpreter”显示出来的解释器不是当前项目下的虚拟环境,则点击“Project Interpreter”的右侧的设置按钮,如下图所示。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

然后点击“Add local”,如下图所示。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

找到该项目对应的虚拟环境Python解释器,进行添加即可,如下图所示。

手把手教你如何新建scrapy爬虫框架的第一个项目(下)

至此,Scrapy爬虫虚拟环境创建、Scrapy爬虫项目的创建以及Scrapy爬虫项目导入到Pycharm中以及解释器的配置已经完成,接下来我们要开始写入爬虫逻辑,以及数据提取等,敬请期待~~

对爬虫感兴趣的小伙伴,欢迎来Github: https://github.com/cassieeric ,喜欢的话记得给个star噢~~ 手把手教你如何新建scrapy爬虫框架的第一个项目(下)

本文由dcpeng 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。

转载、引用前需联系作者,并署名作者且注明文章出处。

本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Algorithms of the Intelligent Web

Algorithms of the Intelligent Web

Haralambos Marmanis、Dmitry Babenko / Manning Publications / 2009-7-8 / GBP 28.99

Web 2.0 applications provide a rich user experience, but the parts you can't see are just as important-and impressive. They use powerful techniques to process information intelligently and offer featu......一起来看看 《Algorithms of the Intelligent Web》 这本书的介绍吧!

SHA 加密
SHA 加密

SHA 加密工具

html转js在线工具
html转js在线工具

html转js在线工具

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具