数据分析实战|人人都是产品经理网站(中篇):读者视角

栏目: 数据库 · 发布时间: 6年前

内容简介:本篇作者将以读者视角来分析这些数据,从4万多篇文章中,找出对于读者最有帮助最有价值的文章。enjoy~前篇

本篇作者将以读者视角来分析这些数据,从4万多篇文章中,找出对于读者最有帮助最有价值的文章。enjoy~

数据分析实战|人人都是产品经理网站(中篇):读者视角

前篇回顾

前篇 《人人都是产品经理网站数据分析实战——上篇(平台视角)》 中,详细地介绍了从人人都是产品经理官网(以下简称人人)返回的首页数据中,以平台运营者的角度来分析:网站目前的内容是否可以支持网站的正常运营。

到本篇则会换一个视角,以读者视角来分析这些数据,从4万多篇文章中,找出对于读者最有帮助最有价值的文章。当然一千读者有一千个哈姆雷特,每个人对文章的价值都有着自己的判断,而本文只是从数据统计的角度来分析那些对大多数读者能够有帮助的文章。解决的问题如下:

Q1. 阅读量、收藏量、点赞量和评论量分别的Top10是哪些文章

Q2. 有哪些文章值得收藏?

Q3. 有哪些作者值得关注?

各种Top 10

在Youtube的各种节目中,各种盘点Top 10节目很受观众欢迎。所以这里也按俗套剧情先偷个懒,直接把上一期整理好的数据排排坐,分别按照阅读量、收藏量、点赞量和评论量来进行排个序,看看各种Top的文章是哪些。还没有学习的同学也可以对本篇点击一波收藏,之后可以导航深入学习。

1. 阅读量

(1)99.2万阅读量

(2)70.9万阅读量

(3)60.1万阅读量

(4)56.8万阅读量

(5)53.1万阅读量

(6)52.5万阅读量

《产品经理岗位职责》

  • 发表:2012-08-06
  • 作者:老曹
  • 分类:业界动态

(7)52.1万阅读量

(8)52.0万阅读量

(9)51.5万阅读量

(10)51.0万阅读量

2. 收藏量

(1)4274收藏量

(2)2407收藏量

(3)2407收藏量

(4)2298收藏量

(5)2237收藏量

(6)2120收藏量

(7)1932收藏量

(8)1832收藏量

(9)1779收藏量

(10)1774收藏量

3. 点赞量

(1)2181次点赞

(2)1886次点赞

(3)1730次点赞

(4)1556次点赞

(5)1406次点赞

(6)1330次点赞

(7)1328次点赞

(8)1111次点赞

(9)1026次点赞

(10)1002次点赞

4. 评论量

(1)1014次评论

(2)848次评论

(3)723次评论

(4)456次评论

(5)373次评论

(6)319次评论

(7)307次评论

(8)236次评论

(9)234次评论

(10)233次评论

二. 筛选优质文章

对我来说,一年收藏个几百篇文章到我的材料库中是非常正常的,之前的这点Top 10根本不够看,但如果拉长相应的名单又会有很多投机取巧的文章混在其中。人人经过这么多年的发展,已经沉淀了不少佳作。所以,作为一个有点 贪婪 的人,如何把这些优质内容一网打尽,是我接下来想要考虑的事情。

1. 四个属性分布

还是之前的数据,我们先再次看一下所有文章属性中,有价值的数据总览:

数据分析实战|人人都是产品经理网站(中篇):读者视角

评论这一项相比于其它属性来说,因为值分布得比较极端,比较适合按类型进行区分,大于25%的文章评论数量为0,大于25%的文章数量评论数大于3,评论数1~2的小于50%。依次可以将其由数值型属性转化为分类类型。因为代码上的处理,这里由低到高的命名为Low,Mid,High。这样我们可以将原本需要XYZ三个轴再加上空间上点大小的三维散点图转化为二维。

根据上面的View(浏览量),like(点赞),bookmark(收藏数),comment(点评数)分别做为散点图的点取值,x轴,y轴,及点的类型,绘制如下:

数据分析实战|人人都是产品经理网站(中篇):读者视角

2. 属性分析

(1)从上图中,凭肉眼观察就能发现约95%以上的文章都集中在左下角的紫色方块区域内;

(2)虽然紫色方块区域都是以High为主的蓝色居多,但这是将4万篇文章堆叠在一起的结果,展示上效果有些问题,但从整体比例来说High,Mid,Low也都应该主要集中在这块区域;

(3)实际对四个属性的相关性求解也是两两之间基本都在0.5以下。虽然是正相关,但属于比较弱的相关,所以并不能以某一个属性做为单一的换算比例来“消元”;

(4)四万多条数据挤在紫色小方块里,可以在一定程度上将他们在此区间看成是均匀分布的;可以暂时不考虑四个属性之间的加权问题。

3. 评分计算公式

所以综上所叙,大致的计算流程如下:

(1)为了四个属性的值能够相加起来比较方便,所有值都需要按照[0,1]之间进行等比换算,让他们能够保持在一个维度;

(2)为了避免某些文章的属性因为值过大产生干扰,需要进行一定的修饰。当文章属性中的值已经大于其它95%的文章时,则只取1。排除掉此部分的值之后,再根据第1条进行换算;

(3)经过上述处理之后,四个值相加则为此篇文章的打分,取值范围一定是[0~4]。

4. 结果一览

经过上面如此一番折腾,还能够打4分的文章还有438篇之多。但对比于全站45000+篇文章来说,1%左右的筛选结果还是可以让我满意的。

因为筛选结果有400多篇,所以下面是按时间节选截图。大家也可以一起来验证一下我的筛选成果,是不是一些精华中的精华。

数据分析实战|人人都是产品经理网站(中篇):读者视角

(右击,在新标签页中打开即可查看大图)

哪些作者值得关注?

相信大家也能看到在人人的官网和手机APP中是有作者推荐的。但这个推荐的模型和依据并没有告诉读者他们是如何筛选出来的。所以在这里我们利用手上现有的资源做完这点分析,来看看人人上有哪些优秀的作者。

首先,他应该有一定的产量,因为如果作品数量太少,可能会导致较大偏差值,而产生较高的个人分数。所以先排除掉投稿数量低于5篇的作者;

其次,自然就是文章的质量了,结合前文的打分,取当前作者所有作品的平均值即可。下表中为了展示各作者的区别,把分项目的打分也显示出来。

如此,这些作者就已经有了极大的区分度,而且根据各自的分数,其实在一定稳定上是可以分辨得出此作者的投稿偏好和类型的。如果还没有关注他们,就赶紧关注一波吧~

数据分析实战|人人都是产品经理网站(中篇):读者视角

补充一点在于,作者的水平描述在人人的体系下,还有打赏、订阅量和关注量这些纬度可以让这个打分模型更具有说服力。但限于篇幅觉得已经够说明问题就不再追加数据了。

下期预告

以上便是本篇读者视角的数据分析的全部内容,希望大家喜欢。有建议和想法的同学可以在下面的评论区留言讨论。

下一期就是本次分析的最终篇,作为作者,取一个什么样的标题会火!将会从数据分析到数据挖掘建立相应的模型,可以进行预测。

本文由 @ 核桃壳 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自网络


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

从规范出发的程序设计

从规范出发的程序设计

[美] Carroll Morgan / 裘宗燕 / 机械工业出版社 / 2002-8 / 45.00元

本书详细论述了有关规范程序设计的内容,包括:程序和精化、谓词演算、选择、迭代、构造类型、模块和封装等,最后几章还包含了大量的实例研究和一些更高级的程序设计技术。本书提倡一种严格的程序开发方法,分析问题要用严格方式写出程序的规范,而后通过一系列具有严格理论基础的推导,最终得到可以运行的程序。 本书是被世界上许多重要大学采用的教材,适于计算机及相关专业的本科生和研究生使用。一起来看看 《从规范出发的程序设计》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

随机密码生成器
随机密码生成器

多种字符组合密码

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换