爬虫实战:抓取知乎问题 “大学生如何赚到一万元”

栏目: Python · 发布时间: 5年前

内容简介:最近对赚钱的话题很感兴趣,在知乎上关注了很多“赚钱”相关的问题,高质量的有不少,但是夹杂着私货的也不少。不过知乎的数据比较全,我们完全可以用来做文本分析。爬虫的原理我就不细讲了,如果大家对爬虫的原理和相关库不甚了解,又想快速入门,不妨看看我们这门课。问题:如何在大学赚到一万元?

最近对赚钱的话题很感兴趣,在知乎上关注了很多“赚钱”相关的问题,高质量的有不少,但是夹杂着私货的也不少。不过知乎的数据比较全,我们完全可以用来做文本分析。

爬虫的原理我就不细讲了,如果大家对爬虫的原理和相关库不甚了解,又想快速入门,不妨看看我们这门课。

待爬网址

问题:如何在大学赚到一万元?

大学里面学费加一年开销最少就是10000元,所以如何赚到10000 链接 https://www.zhihu.com/question/34011097

爬虫实战:抓取知乎问题 “大学生如何赚到一万元”

分析请求

因为我们知道知乎的响应数据都是json型网站,所以我们想找到json对应的链接规律。F12键打开开发者工具,选中XHR,不停地往下滑动页面,开发者工具Network会不停的闪过很多链接。

爬虫实战:抓取知乎问题 “大学生如何赚到一万元”

经过排查我们发现这个链接很特殊,点击进去详情如下

爬虫实战:抓取知乎问题 “大学生如何赚到一万元”

对应的数据是json格式

爬虫实战:抓取知乎问题 “大学生如何赚到一万元”

里面果然是用户的回答数据

爬虫实战:抓取知乎问题 “大学生如何赚到一万元”

现在我们将找到的网址复制下来分析分析

我们发现网址中有 34011097offset 两个参数是可以调整的,分别代表 话题id回答的id 。我们将上面的网址整理一下,设计成网址模板base_url

伪装请求

我们还要注意的一点是写爬虫一般是需要伪装请求头headers,而在知乎这种网站,我们可能还需要cookies。我新建了一个 settings.py 文件,用来存放cookies、headers、网址模板base url和question id

数据存储

接下来我们新建 zhihu.py 用于设计爬虫逻辑,因为知乎的数据都是json格式,相对于html而言json的数据更有层次性更加的干净。为了保证后续数据分析的可扩展性,我们尽量保存原始。所以这里用到了jsonlines库用于存储json数据(以行的方式存储每个json),如果不熟悉可以把 jsonlines库:高效率的保存多个 python 对象 这篇文章收藏起来。

知乎爬虫代码

zhihu.py 文件中

程序运行

爬虫实战:抓取知乎问题 “大学生如何赚到一万元”

读取抓取json数据

这里使用jsonlines库,该库以行的方式读取,得到的是可迭代对象。如果不熟悉可以把 jsonlines库:高效率的保存多个python对象 这篇文章收藏起来。将其转化为dataframe类型,这样我们就可以用pandas库进行读取

爬虫实战:抓取知乎问题 “大学生如何赚到一万元”

两小时视频课程

爬虫实战:抓取知乎问题 “大学生如何赚到一万元”

精选文章

Python系列课(爬虫、文本分析、机器学习)

洞中方一日,世上已千年

小demo:对德文数据进行文本分析

argparse模块用法实例详解

使用Python制作WORD报告

使用Pandas、Jinja和WeasyPrint制作pdf报告

为什么你要为2020,而不是2019做计划?          

如何让python代码显示进度信息?

我是如何通过python挣外快的

python文本分析:从入门到精通

PySimpleGUI: 开发自己第一个软件

100G 文本分析语料资源(免费下载)

文件腾转挪移操作,那都不是事儿

python文本分析:从入门到精通

免费的python课见多了,但是还能赚钱的可不多见

后台回复 20190228 ,得本教程项目代码。

原创不易,如果觉得内容不错,记得AD、转发、好看 爬虫实战:抓取知乎问题 “大学生如何赚到一万元”


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

高效团队开发

高效团队开发

[日] 池田尚史、[日] 藤仓和明、[日] 井上史彰 / 严圣逸 / 人民邮电出版社 / 2015-7 / 49.00

本书以团队开发中所必需的工具的导入方法和使用方法为核心,对团队开发的整体结构进行概括性的说明。内容涉及团队开发中发生的问题、版本管理系统、缺陷管理系统、持续集成、持续交付以及回归测试,并且对“为什么用那个工具”“为什么要这样使用”等开发现场常有的问题进行举例说明。 本书适合初次接手开发团队的项目经理,计划开始新项目的项目经理、Scrum Master,以及现有项目中返工、延期问题频发的开发人......一起来看看 《高效团队开发》 这本书的介绍吧!

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

在线进制转换器
在线进制转换器

各进制数互转换器

MD5 加密
MD5 加密

MD5 加密工具