内容简介:用python对github用户followers分析
如何分析一个github用户的followers?
周末手痒,用 python 分析了一下自己 github 的 followers 用户,统计结果如下
问题分析
在github上,一个用户的主页显示如下,主要对如下用户信息进行提取
- 用户名称
- 所在的位置
- 用户仓库、stars、Followers、Following数量
- 去年一年的贡献度
我们需要对上图红框里面的数据进行提取,最直接的方法是使用 requests
,通过 BeautifulSoup
对 html
中的信息进行提取。
一些弯路
最开始没打算用爬虫的方式来获取用户信息,因为github有公开的 REST API v3 可以对指定用户的信息进行访问,并且已经有打包好的 PyGithub 方便调用。但是我实验下来有如下问题所以放弃使用 REST API v3
- API请求频率有限制,无法运用多线程快速获取批量的用户信息
- 不知道是不是小BUG,通过API无法获得用户去年一年的贡献度 contributions
工具
- python 3 : 彻底告别我的py2
- BeaufulSoup :从HTML或XML文件中提取数据
- Requests : 请求网页
- 多进程 : 为了更快
- pyecharts : 美的令人窒息的绘图工具
操作步骤
- 获取目标用户如
https://github.com/wangshub?page=1&tab=followers
的所有followers; - 改变
page
编号,遍历所有用户; - 提取用户关键信息,保存成
csv
文件; - 数据清洗,过滤;
- 利用 pyecharts 绘图;
- 进行地点词频统计;
实验结果
截止 2018-01-15
,我的github账号一共有 1214
名follower,分析结果如下
用户地点分析
排除掉没有填写地点信息的用户,将中文转化成pinyin后,词云如下
用户基本上都是来自 北京、上海、深圳
等地
去年一年用户贡献度分析
如果看用户是否活跃,肯定是看 contributions
啦
可以看出超过一般多的用户,去年的贡献度都在都在 1~50 之间,新的一年要加油啦。其中一年贡献最多的用户是 @dragon-yuan , 在2017年有整整 4,197 个贡献度,不多说了,前去关注一波。
用户followers分析
哇,有大牛,别拦着我,我要去点关注了
用户仓库数量分析
通过爬取用户的仓库数量,进行统计如下
可以看到一个有意思的现象,有少数的人仓库数量超过了 1000 ,打开这几位仁兄的github主页,大部分是fork的项目,其中仓库最多的用户有 13100个 仓库,叫 @ProgrammerAndHacker ,他是这么介绍自己的
I follow best programmer and hacker, Do you want to hacked by them? ^_^ Best programmers and hackers are here: ...
用户stars分析
都说点击star是一个好习惯,
不得不说,github上面还是有点赞狂魔的,这位老铁 @chenruibin 一共点击了 10100
个赞,真是好习惯~
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 4个步骤:聚类分析如何分析用户?
- 更懂用户的画像分析
- 用 Pandas 做用户留存分析
- 漏洞分析:OpenSSH用户枚举漏洞(CVE-2018-15473)分析
- Mimikatz提取Windows用户凭证分析
- 携程实时用户数据采集与分析
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
计算机程序设计艺术
Donald E.Knuth / 苏运霖 / 机械工业出版社 / 2006-4 / 45.00元
《计算机程序设计艺术》(经典计算机科学著作最新版)(第1卷第1册双语版)更新了《计算机程序设计艺术,第1卷,基本算法》(第3版),并且最终将成为该书第4版的一部分。具体地说,它向程序员提供了盼望已久的MMIX,代替原来的MIX的一个以RISC为基础的计算机,并且描述了MMIX汇编语言。一起来看看 《计算机程序设计艺术》 这本书的介绍吧!