一边吃粽子，一边思考流量数据分析！

栏目: 数据库 · 发布时间: 6年前

内容简介：粽子节了嘛，突然想吃粽子了，咋办，买粽子呗!现在情景转换一下，假设你是某饮食网的数据分析师，现在某粽子界大亨想拿钱砸你老板(打广告)。老板：“宝器过来一下“宝器：“好的老板”

前戏

粽子节了嘛，突然想吃粽子了，咋办，买粽子呗!现在情景转换一下，假设你是某饮食网的数据分析师，现在某粽子界大亨想拿钱砸你老板(打广告)。

老板：“宝器过来一下“

宝器：“好的老板”

老板：“有个粽子界土豪要砸我们”

宝器：“谁敢砸你?老板等着我叫人”

老板：“我问的是咱如何收费!”

宝器：“好嘞老板，下周给你出个报价报告”

(背景吹比结束)

作为数据分析师你可能想到的是CPC、CPS这一类的关键字，但到底是用CPC还是其他方式计费，如何计费，给哪条渠道线推广?什么样的用户可能适合粽子大亨?这些问题都需要你对公司网站流量数据从采集到到分析有全面深刻的理解。

目录概览

以下内容为个人现阶段业务分析与学习理解，内容将从数据采集到用户分析(绩效指标KPI)这条线路展开。主要内容目录如下：

一边吃粽子，一边思考流量数据分析！

流量数据分析

数据采集

何为“埋点“?

说白了就是收集数据，首先你想到可能可能是爬虫爬取，但你要搞清楚，现在是在公司的产品线，难道你能通过爬虫爬到“宝器点开了××搜素框”这样的行为事件吗?很明显这是不现实的。

那类似于这样的用户行为事件怎样采集数据呢?答案是通过“埋点”，所谓埋点，指的就是针对用户行为事件捕获、处理和发送的相关技术及实施过程。

举个栗子:如果京东内部运营人员想看一下如下图“粽情端午节”这个活动的效果，研发人员可以通过在下图红色箭头所指地方“埋点”，当用户点击这一栏的时候，后台将会触发并上报这样一条用户点击行为数据。

一边吃粽子，一边思考流量数据分析！

埋点作用?

用于流量监测(在线情况、PV、UV指标等等分析)
便于构建用户行为路径(通过埋点获取用户的行为数据链路)
通过对买点数据的分析，判断产品和活动等效果及未来走向
监控应用运行状态，方便问题定位和追踪
为营销决策提供数据支持
实施AB Testting

流量数据采集底层表与字段

埋点时为了收集数据，但不是所有的数据都需要采集上来。首先得知道业务需求是什么，比如现在BOSS想看一下近7天的的DAU走势，这时候分析师就要思考怎么计算DAU，之后再和产品人员讨论如何埋点可以得到某个“字段”用于计算DAU(可以在用户启动APP的时候埋点上报一条日志标识)。

在实际的操作中，有以下的几个方面的数据可以被采集：

用户的系统属性特征

操作系统
浏览器
域名
访问速度
网络状态(2G、3G、4G等等)
其他

用户的访问特征

开始访问时间
结束访问时间、
第一次访问、最后一次访问
点击的URL

用户来源特征

网络的内容信息类型
内容分类
来访URL

产品特征

产品编号
产品类别
产品颜色
产品价格
产品数量等等

所以综上可能流量数据采集底层表如下(这里只做简单的列举，更多请自行查阅思考)：

一边吃粽子，一边思考流量数据分析！

数据处理(ETL)

目的：根据后续的指标统计需求，过滤分离出各种不同主题(不同栏目path)的基础数据(创建不同的中间表表示)。

方法：一般直接通过HQL按维度和指标提取数据(可能从原始底层采集表提取比较困难，原始表也需要经过ETL将业务系统的数据经过抽取、清洗转换之后加载到数据仓库)。之后可能根据业务需求将基础性指标脚本固化，推送到内部BI平台制作报表展示。

举个栗子，计算一下近7日UV、登录用户及访问IP等指标：

SELECT  dt,   
COUNT(DISTINCT deviceid) AS uv ,   
COUNT(DISTINCT CASE WHEN length(trim(user_id)) > 0 THEN user_id else NULL end) AS login_users , 
COUNT(DISTINCT ip) AS ip_num , 
COUNT(session_id)  AS session_num  
FROM  dwd_caiji_table  
WHERE  dt between sysdate(-7) and sysdate() 
GROUP BY  dt

问题：

可能很多朋友想问前面提到的通过HQL来提取数据而不是用SQL，实际上HIVE-SQL设计的目的就是想让会 SQL 而不会MapReduce编程的人也能使用Hadoop进行数据处理(毕竟公司实际的数据量都是TB、PB甚至更大)。

目前流行的大数据相关的计算框架能处理大量的数据和计算，基本是依赖于分布式计算框架(比如MapReduce)，而分布式计算，是一个集群共同承担计算任务，理想状态下是每个计算节点应当承担相近数据量的计算任务，但实际情况可能因为数据分配的严重不均衡导致数据倾斜。

所以在做ETL的时候需要考虑数据倾斜的问题，相关内容过多请自行查阅。

指标统计与用户分析

说明：限于篇幅，将目录3、4串在一起。

产品数据化是有非常有好处的，优点：

可视化：用户行为可视化，可清晰的了解用户行为
可追踪：定位产品问题
可验证：数据支撑和验证
可预测：通过数据变化，预测后期走向

而数据化的前提是需要一些指标来衡量，这里宝器将指标分成网站的流量指标和用户行为指标，意思是说一部分几乎是通用性分析指标，一部分会根据不同的业务需求场景而设定。

针对每个指标的具体含义如果有不理解的还需要各位自行查阅。需要了解的是每个指标的定义、作用。

举个栗子，DAU：

定义：Daily Active User(日活跃用户)

作用：可以用户衡量产品(如京东app)的活跃度，可用于了解用户增长和减少趋势。

现在重点讲一下宝器对用户分析(绩效指标KPI)的一些看法，首先个人是将用户分析分成两类，一类是基础性分析，一类是模型策略分析。说的简单点就是想通过基础性的指标分析，调整运营策略，并根据不同的商业需求，搭建用户分析模型体系。

1、基础性分析

基础性分析指标分成两种，一种是针对新用户，一种是针对老用户，而新用户对应着拉新和转化。而针对老用户可分成活跃、留存、跳出、回购。举个栗子：

拉新(渠道)：

京东往往具备 APP、移动端、微信端、PC端渠道，其中根据不同的业务，流量偏重有所不同，随着手机移动设备的越来越智能化和大屏化，一般情况下，电商节618数据表明，非PC端消费的用户最多。现在的商业机构更加注重非PC端(微信、APP、移动端)的营销，所以了解用户使用的设备和渠道能够使得运营和利润最大化。

转化：

指用户进行了相应目标行动的访问次数与总访问次数的比率。相应的行动可以是用户登录、用户注册、用户订阅、用户下载、用户购买等一系列用户行为，因此网站转化率是一个广义的概念。简而言之，就是当访客访问网站的时候，把访客转化成网站常驻用户，也可以理解为访客到用户的转换。

一边吃粽子，一边思考流量数据分析！

针对老用户的活跃、留存、跳出、回购同理可直接搜索相关关键字自行阅读。

2、模型策略分析

我相信授人以鱼不如授人以渔，这是非常重要的一部分内容，也不可能就在一篇推文中讲清楚。这里将这部分内容对应的一些参考学习链接放上，更多理解还需自己领悟：

用户行为事件模型：

http://www.woshipm.com/data-analysis/686576.html

用户行为路径分析：

http://www.woshipm.com/data-analysis/704261.html

用户体验分析：

http://www.woshipm.com/discuss/53005.html。

https://www.jianshu.com/p/f10f706d3ddd?from=groupmessage

用户画像分析：

用户画像。

用户价值评分与精准营销：

https://wenku.baidu.com/view/7e156f087275a417866fb84ae45c3b3567ecdd18.html

漏斗模型分析：

http://www.woshipm.com/data-analysis/697156.html

流量货币化：

https://baike.baidu.com/item/%E6%B5%81%E9%87%8F%E8%B4%A7%E5%B8%81%E5%8C%96/17219976

本文参考：

https://www.cnblogs.com/yjd_hycf_space/p/7772722.html。
https://www.cnblogs.com/shujuxiong/p/10218727.html。
https://blog.csdn.net/haoyuexihuai/article/details/53453100。
https://blog.csdn.net/wuxintdrh/article/details/81990385。
https://www.admin5.com/article/20180629/862661.shtml。

结语：

勿忘初心，做自己，还年轻，在路上，Over!

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Distributed Algorithms

Nancy A. Lynch / Morgan Kaufmann / 1996-3-15 / USD 155.00

In "Distributed Algorithms", Nancy Lynch provides a blueprint for designing, implementing, and analyzing distributed algorithms. She directs her book at a wide audience, including students, programmer......一起来看看《Distributed Algorithms》这本书的介绍吧!

码农工具

一边吃粽子，一边思考流量数据分析！

前戏

目录概览

流量数据分析

数据采集

何为“埋点“?

埋点作用?

流量数据采集底层表与字段

用户的系统属性特征

用户的访问特征

用户来源特征

产品特征

数据处理(ETL)

问题：

指标统计与用户分析

举个栗子，DAU：

定义：Daily Active User(日活跃用户)

1、基础性分析

拉新(渠道)：

转化：

2、模型策略分析

用户行为事件模型：

用户行为路径分析：

用户体验分析：

用户画像分析：

用户价值评分与精准营销：

漏斗模型分析：

流量货币化：

本文参考：

结语：

Distributed Algorithms

HTML 压缩/解压工具

正则表达式在线测试

RGB HSV 转换