Python爬虫学习笔记（1）爬取知乎用户信息

栏目: Python · 发布时间: 7年前

内容简介：Python爬虫学习笔记（1）爬取知乎用户信息

生苦短，我用Python

最近一段时间因为大数据分析以及AI的兴起，所以想着学习一下Python，刚接触 Python 就被其优雅、简洁、明确的语法和强大的第三方库所吸引。我的理念一直是学习一门语言，必须在实践中去学习，在实践中不断解决问题而熟悉语法以及深刻理解。

第一次爬取得信息是知乎的某一用户所关注的人的公开信息。

因为本人是新手一枚，所以使用Python的IDE-PyCharm。另一原因也因为我之前是用C#的，所以对于强大的IDE情有独钟。

1、学习任何一门语言，你都必须安装其对应的工作环境，Python也不例外，在windows上安装Python很简单，只需要去官方网站下载对应的安装程序： www.python.org/downloads/r… ;然后运行安装包：

Python爬虫学习笔记（1）爬取知乎用户信息

特别注意：一定要勾上Add Python 3.6 to PATH，然后点Install Now就行了

安装完之后打开命令提示符窗口，输入python回车，若出现以下信息，则安装成功。

Python爬虫学习笔记（1）爬取知乎用户信息

2、安装Pycharm: PyCharm: Python IDE for Professional Developers by JetBrains ;

3、打开Pycharm,新建一个项目，再新建一个Python文件，后缀名为.py.

4、打开知乎首页-->登陆-->搜索到一个大V，用谷歌浏览器分析点击关注了哪些人后的请求，通过分析：查找他关注的人的请求链接： www.zhihu.com/api/v4/memb… *%5D.answer_count%2Carticles_count%2Cgender%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics&offset=40&limit=20

Python爬虫学习笔记（1）爬取知乎用户信息

通过观察尝试分析后可知：offset=40是偏移量，通过改变这个值可以实现分页的效果。

知乎是做了反爬虫的措施的，所以我们要想爬取知乎信息，还必须要设置请求头，下面我们来分析请求头：

Python爬虫学习笔记（1）爬取知乎用户信息

图片中红箭头所指就是请求必须需要的值，

authorization：是身份认证信息，每个用户登录后都会产生各自的身份认证信息。

User-Agent：是验证请求是来自正常的浏览器访问

最终代码如下：

import requests
import pandas as pd
import time
headers={
    'authorization':'',#此处填写你自己的身份验证信息
    'User-Agent':''#此处填写你自己浏览器的User-Agent
}
user_data = []
def get_user_data(page):
    for i in range(page):#翻页
        url = 'https://www.zhihu.com/api/v4/members/excited-vczh/followees?include=data%5B*%5D.answer_count%2Carticles_count%2Cgender%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics&offset={}&limit=20'.format(i*20)
        response = requests.get(url, headers=headers).json()['data']
        user_data.extend(response) #把response数据添加进user_data
        print('正在爬取第%s页' % str(i+1))
        time.sleep(1) #设置爬取网页的时间间隔为1秒

if __name__ == '__main__':
    get_user_data(10)
    df = pd.DataFrame.from_dict(user_data)#以字典保存数据
    df.to_csv('zhihu.csv',encoding='utf_8_sig')#保存到用户名为zhihu的csv文件中，encoding='utf_8_sig'参数是为了解决中文乱码的问题
    print(df)

以上所述就是小编给大家介绍的《Python爬虫学习笔记（1）爬取知乎用户信息》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

本书对标记系统这一概念的内涵和外延进行了系统化的、深入浅出的阐述。从什么是标记系统、标记系统有什么价值，到标记系统的架构和与其他分类系统的对比，再到标签的呈现方式和标记系统的实现细节，作者都用通俗易懂的语言进行了阐述，并附有详细的示例和具体的案例研究。本书的每一章都涵盖了标记系统的一个方面，主要内容包括：标记系统的模型、价值、架构，标签的分类、可视化、管理方法，最后介绍标记系统设计方法。本书带领读......一起来看看《标签》这本书的介绍吧!

码农工具

Python爬虫学习笔记（1）爬取知乎用户信息

标签

MD5 加密

XML 在线格式化

正则表达式在线测试