Scrapy爬虫之MongoDB数据存储

栏目: 编程工具 · 发布时间: 6年前

小编是一个爬虫初学者，学习 python爬虫已有一段时间了，对 Scrapy框架开发有自己的一点小见解，如果有说不对的地方，希望大家多多指点。小编用的是 Python2.7，如果觉得版本太旧，也可以用3.x版本，可能语法上有点不同。为了方便，小编在windows系统下开发案例。小编这次做了关于对拉勾网招聘信息采集的简单爬虫，并将采集的信息存放到 MongoDB 数据库中。

在开始代码之前，还没有安装过 MongoDB的朋友，可以先去官网下载并安装。MongoDB下载官网： https://www.mongodb.com/download-center ；安装和使用教程：

http://www.runoob.com/mongodb/mongodb-window-install.html .安装和配置完成后，因为权限不足的问题，需要在管理员模式下启动MongoDB，MongoDB的开启方法已在使用教程中展示，如下图所示.

Scrapy爬虫之MongoDB数据存储

然后打开任意浏览器，输入地址： http://localhost:27017 ，如果一切正常，如下图所示，表示 MongoDB 数据正常使用 .

Scrapy爬虫之MongoDB数据存储

启动 MongoDB后，创建爬虫工程，以lagou为例，具体代码如下：

编写 lagourecruit.py文件

Scrapy爬虫之MongoDB数据存储

编写 items.py文件

Scrapy爬虫之MongoDB数据存储

编写 setting.py文件，同时设置好自己的User-Agent

Scrapy爬虫之MongoDB数据存储

编写 pipelines.py文件

Scrapy爬虫之MongoDB数据存储

编写 start.py文件

Scrapy爬虫之MongoDB数据存储

执行 start.py脚本（ps:在这里小编只展示一部分）

Scrapy爬虫之MongoDB数据存储

在 MongoDB启动的状态下，数据已成功写入到数据库中，小编向大家展示两种数据库的查阅方式。

方式一：另外打开一个以管理员身份运行的 cmd窗口，进入到MongoDB安装盘的mongodb\bin文件目录下，输入mongo命令，小编这里以F盘为例，如下图所示.

Scrapy爬虫之MongoDB数据存储

完成之后，输入 use+工程名（如use lagou），接着输入查看数据库命令：show collections，再输入db.数据库名称.find()（如db.lagourecruit.find()）查看数据库内容，如下图所示.

Scrapy爬虫之MongoDB数据存储

方式二：利用 MongoDB可视化工具RoboMongo，RoboMongo下载地址：

http://www.softpedia.com/get/Internet/Servers/Database-Utils/Robomongo.shtml#download ，安装完成并打开，建立主机连接，如下图所示.

Scrapy爬虫之MongoDB数据存储

连接成功后，即可查阅数据库内容，如下图所示.

Scrapy爬虫之MongoDB数据存储

END

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Python深度学习

[美] 弗朗索瓦•肖莱 / 张亮 / 人民邮电出版社 / 2018-8 / 119.00元

本书由Keras之父、现任Google人工智能研究员的弗朗索瓦•肖莱（François Chollet）执笔，详尽介绍了用Python和Keras进行深度学习的探索实践，涉及计算机视觉、自然语言处理、生成式模型等应用。书中包含30多个代码示例，步骤讲解详细透彻。由于本书立足于人工智能的可达性和大众化，读者无须具备机器学习相关背景知识即可展开阅读。在学习完本书后，读者将具备搭建自己的深度学习环境、建......一起来看看《Python深度学习》这本书的介绍吧!

码农工具

图片转BASE64编码

在线图片转Base64编码工具

Scrapy爬虫之MongoDB数据存储

Python深度学习

图片转BASE64编码

UNIX 时间戳转换