内容简介:预览地址:
效果
预览地址: http://23.105.208.123/
技术栈
源码地址
https://github.com/MasakiOvO/...
python需要安装的库
requests,BeautifulSoup,redis,django
思路
两个程序。
- 一个程序负责爬取用户关注和粉丝列表, 并把用户名存入set
- 另一个程序负责根据用户名获取详细信息,存入hash
维护 两个列表 1.已爬用户 2.未爬用户
第一个程序的流程:
当未爬set不为空时:执行如下操作: 每次从未爬取列表中取出一个用户名 根据用户名,获取他的关注与粉丝并遍历,如果用户既没在已爬用户,也没在未爬用户 加入未爬用户列表。
第二个程序的流程
每次从未爬set中取出一个用户名,调用接口获取详细信息并存入redis hash中
接口获取
打开某个人的个人主页,按F12
选择XHR 然后点击图1的关注我的人,和我关注的人,在图2就可以看到header和cookie。
获取用户列表Api:
https://www.zhihu.com/api/v4/... {username}/{type}?include=data[*].answer_count,articles_count,gender,follower_count,is_followed,is_following,badge[?(type=best_answerer)].topics&offset=20&limit=20
username 是用户名,
type 是类型, 有两种可选 [followers,followees], followers是粉丝 followees是关注
改变offset的值可以获取分页
获取个人信息Api:
https://www.zhihu.com/people/...
user_token是用户名
这个api中 返回的是html页面,在html页面中有一个scirpt标签里面的内容是json格式的用户信息,这就很方便了,直接获取键值对 对应的属性就ok。
发送请求
F12查看接口,把header和cookie放进requests.get()方法中。
剩下的就很简单了,不赘述了。
总结
还有很多优化的地方。比如加入中间件,来提升爬虫的稳定性。对数据进行分类,统计城市分布。
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 爬取珍爱网跟个人数据展示
- 浅谈有道云笔记个人数据 “丢失” 及思考
- 一个人的安全部之大话企业数据安全保护
- 黑客发布了数千名美国警察和联邦特工的个人数据
- T-Mobile遭黑客入侵,200万用户个人数据被盗
- 近期数据泄露事件盘点:医疗信息、法律文件、个人隐私都在“裸奔”
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Pattern Recognition and Machine Learning
Christopher Bishop / Springer / 2007-10-1 / USD 94.95
The dramatic growth in practical applications for machine learning over the last ten years has been accompanied by many important developments in the underlying algorithms and techniques. For example,......一起来看看 《Pattern Recognition and Machine Learning》 这本书的介绍吧!