【突破面试】你使用过哪些数据分析的方法?

栏目: 数据库 · 发布时间: 6年前

突破面试系列之一

突破面试系列之二

突破面试系列之三

突破面试系列之四

突破面试系列之五 【您在这里】

备战求职,戳{业务知识一站通},补充业务知识,再也不怕被人说不懂行了。

需要面试指导的,戳{求职宝典},购买后加入学员群,找陈老师1对1指导

有同学问:陈老师,每次被面试都被问“你使用过哪些数据分析的方法”。结果都感觉答不上来。我回答做了相关分析、回归分析、聚类分析、因子分析又经常被人怼。所以到底数据分析有什么方法?为啥我在做数据分析,却感觉没什么方法?

答:首先,相关分析、回归分析、聚类分析、因子分析的名字叫XX分析,但它们是统计学方法, 只是数据分析的工具,不是解决问题的全部办法 。很多同学一看到名字叫分析,就想当然的以为我只要按这些XX分析的代码跑一遍就算分析了,这种行为经常会被真正懂行人怼。

就举个最简单的例子,所谓相关分析,很多同学就是算了个相关系数。可统计上的相关系数与业务中的相关关系是两码事。我家门前的大树年年都在长,中国GDP也年年在涨,两列数据算个相关系数哇塞0.99,P值小于0.05,所以我家门前的树是我中华龙脉,我要发财啦!——不要笑,脱离了业务意义去做统计模型,做出来的笑果(我没打错)就是这样的。

所以回答这个问题,要回到数据分析到底解决哪些业务问题上去。我们之前分享过,数据分析可以解决的是:

  1. 是多少(数据描述状况)

  2. 是什么(树立数据标准)

  3. 为什么(探索问题原因)

  4. 会怎样(预测业务走势)

  5. 又如何(综合判断状况)

其中问题1是用数据描述问题,把问题量化。问题2345都需要探索-假设-检验-总结的循环性的过程。真正服务于业务的时候,只要熟练掌握了量化-探索-假设-检验-总结的循环,就能完成一个分析。无论是企业里的经营问题,还是个人感情、生活各种疑难杂症莫不如此。

然而,这么说面试官肯定不满意。他们还是期待着你说出一些具体名词的。因此人们总会发明一些新词,比如什么AARRR法,矩阵法,切割法,杜邦分析法等等,甚至还有懒省事的干脆叫业务法(是啊,肯定是业务法啊,不结合业务分析啥)。经常把人都听得头晕了。这里我们结合数据分析能解决的问题,梳理下这些方法。

属于“是多少”的方法

“是多少”指数据描述状况。如果只用1个指标就能描述清楚状况,比如身高、年龄这种,是没有什么分析方法的。但是 如果指标很多,就会涉及到选择哪些重点指标,以什么方式展示这些指标。 于是,就有了很多描述性方法。比如一些常见的:

AARRR:互联网行业增长黑客理论的五个大指标。需要注意的是,实际用的时候,还有很多二级三级小指标,绝不是五个指标就完事了,切记。而且AARRR都是围绕用户来说的,实际上也只适用于用户运营,不是所有业务都能硬插这五个指标的。

漏斗法:只要一个流程环节数》2,都能摆一个漏斗出来,用来衡量流程转化率的指标。最典型的比如互联网广告(站外页-落地页-促进页-转化页),比如B2B销售的售前流程也很长(销售线索-初次接触-沟通需求-展示demo-议价-竞标-签署合同),也能撸出来一个漏斗。

杜邦分析法:原本是财务分析中用来衡量企业经营效益与财务指标的方法,现在也被推广开,用来拆解经营指标。比如销售金额=用户数*付费率*客单价。然后再层层拆解用户数,客单价构成。有意思的是,杜邦分析法拆出来的逻辑图会很复杂,所以很多人为了提高逼格直接把它叫“分析模型”……

量收利进销存:零售行业,无论线上线下都是这六个关键指标。和AARRR一样,有一堆二级三级小指标。

要注意:以上都是描述问题的方法,并没有解答问题,比如看到用户流失率75%所以呢?所以75%是好还是坏呢?描述+标准才能对问题做判断。所以才有了下边“是什么”的方法。

属于“是什么”的方法

“是多少”指树立数据标准的方法。寻找标准可以基于业务经验,但业务经验也需要数据进行验证才知道是对的错的。因此,产生了“是什么”的两大类方法:探索标准的方法,验证标准的方法。

探索标准的方法,和到底要对几个指标进行探索有关。比如只用1个指标的方法有:二八法、十分位法、切割法。名字听着玄妙,实际上就是切割线摆在哪。当我们没有信心的时候,可以根据二八定律,把切割线摆在20%,也可以先拆10组或者若干组出来,探索下摆在哪里合适。比如用2个指标,就是所谓矩阵法,其实就是把两个指标交叉,分出四个象限,看看四类有没有明显特点。

如果超过3个指标,一般不建议直接交叉。即使只有3个指标,每个指标分3类,也会产生3*3*3=27类出来,在业务上太复杂了。这时候会用一些统计学的方法。在无标注的情况下可以用Kmean聚类进行分类探索,在有标注情况下可以用决策树。是滴,大家看到了,统计学/机器学习的方法只是解决分析问题的工具,就是这个意思。

找出来标准以后要进行验证。好的标准要能清晰区分不同群体。比如女生说要相亲的男生身高180。那意味着179的人她真的不要,181她不会立即拒绝。如果176的她照样接受,就说明画出来标准没有区分度,要么是标准划分出了问题,要么就是做标准的指标压根就找错了。

需要注意的是:有没有用数据找标准,有没有验证过业务部门的标准,是从取数到分析的分水岭。很多同学觉得自己没有做分析,不知道分析的是什么,核心原因就是手上只有数据没有标准。比如跑出来一个:本月底销售额3000万,可3000万又怎样呢?不知道。然而渠道部一看到月底销售额3000万,就大喊一声:肯定是华东大区藏了业绩,下个月头他们至少还要吐500万出来!这就是有没有评价标准的差距。所以平时工作中就得养成强烈的标准意识,这样才能进行真正的分析。

属于“为什么”的方法

“为什么”指探索问题原因。一提探索原因,大家脑子自然蹦出来的就是相关分析……往往会以为计算个相关系数,丫就真的相关了。于是产生了开篇的“龙脉梗”。实际上,想仅通过数据分析找原因,是相当困难的。往往要内部数据+外部调研+业务判断+测试,共同努力锁定原因。这一点切记切记,面试的时候经常有同学在这里吹牛吹大了,被怼得体无完肤。

正因为很难仅通过数据锁定原因,所以通过数据分析找原因往往是一个系统的过程。需要做齐量化-探索-假设-检验-总结全套流程。严格来说,这里不是靠某个分析方法得出的结论。但是考虑到面试官还是很想听几个方法的名字的,我们可以这么说:

找原因的方法可以分作经验推断与算法推断两种。经验推断就是经典的归纳法与演绎法,具体到数据操作上,就是分组对比(归纳原因)和趋势推演(演绎判断)。比如问为什么销售额下降,用归纳法就是将每一次销售下降的时候,相关症状指标列出来,然后做分组对比,看哪个因素影响下跌的厉害。用演绎法,就是假设销售下降就是因为人员流失/引流产品不给力/季节因素导致的,那么我做了相应调整:人员调动/上新品/等季节过去,以后应该销售能回升。实际中,当然是两种方法结合,不断逼近真相。

算法推断,不是靠人工智能阿尔法大狗子汪汪一叫就把原因叼回来,而是通过指标的计算发现潜在问题点,然后回归到业务里去验证。你可以简单理解为把上边经验推断的过程,量化为一堆指标的计算。比如相关分析虽然不能证明因果,但是能提供分析假设,拿到假设以后我们就能进一步验证,到底这种关系是真相关还是伪相关。因此,做分类的模型与计算相关系数的统计方法,理论上都能用来做这种探索。

属于“会怎样”的方法

“会怎样”指预测业务走势。一提到预测,大家脑子里会自然蹦出来很多很多统计学/机器学习的算法。具体的操作展开写内容太多,这里仅帮大家梳理下逻辑。细节可以后边慢慢更,或者大家自己去看相关统计学/机器学习文章。

首先大类上,预测分定性预测和定量预测两种。定性方法是基于业务经验和业务假设,来推测未来走势。有两种推测法,一种是找一个类似的业务场景进行推测。比如马上上一款新产品,根据过往的经验,一般上市后T+N周销售走势应该是XX,所以类似的也该是这样。是所谓经验推断法。

另一种是基于业务假设,比如新产品上市,假设推广部门传播力度为X,假设销售部门配备人员为Y,假设供应链的产品到货率是Z,之后套入杜邦分析法的模型进行计算,综合预测销量。定性预测并不全是拍脑袋,因为定性假设选取的场景和参数可以通过分析来获得,并不是完全没有依据。同时,对业务部门而言,定性预测时责权划分非常清晰,每个部门要做到多少业绩一清二楚,反而容易推动执行。

定量的方法又分为基于时间的时间序列法,与基于因果关系的算法两类。比如预测店铺销量,如果用时间序列法,则根据过往1-3年销量数据来预测未来的销售数据。如果基于因果关系,则要引入与销售结果相关的变量,比如店铺位置、店铺产品线、产品价格、顾客评价、顾客人数等等。定量预测看起来很复杂,很多同学会直观的认为复杂就是牛逼的。可实际操做过几次就会发现,时间序列法对于环境变化不敏感,容易被突发事件冲击。因果关系法可能采集不到足够的数据,导致模型预测精度很难上去。

所以在工作中真正操作的时候,要因地制宜选方法。在面试的时候,要客观陈述建模效果。又有很多同学本能的认为,模型在测试集上跑出来的准确率越高越牛逼。连过拟合这种问题都忘了。结果在面试的时候被面试官怼穿,这都是很常见的哈。说话谨慎不是问题,被怼穿了才是。

属于“又如何”的方法

又如何指综合判断状况,下分析结论。如果判断标准很清晰,判断的指标很少,那下结论是很快速的,不需要复杂的分析。比如女生说我就是不喜欢秃头的男生,那就看照片一票否决,来的非常爽快。这里不需要分析。但当牵扯指标很多,指标形态很复杂的时候,就很难决定了。比如小姐姐说我想要一个男的对我好(行为指标)有上进心(心理指标)有发展潜力(预测值)真心爱我(恋爱原因),这要求一出,就是个非常复杂的判断。所以,“又如何”是分析最后一步,因为往往做判断,需要做一大堆前期工作。需要搞掂了数据、搞掂了标准、了解清楚原因,做了预测以后,才知道怎么下结论。

在复杂判断中,有主观法和客观法两种。主观法就是基于人工判断(专家判断),只不过打分方式有很多种,直接打分再赋权重的往往叫专家法,打一个矩阵评分再计算的叫层次分析法(AHP)客观法可以通过因子分析(用方差解释率做权重)神经网络(算法训练权重),这样不依赖专家打工。

实际工作中,做评估的最大敌人是没标准,或者标准没节操。看到销量下降就试图甩给没有数据的外部因素,或者甩给目标定得太高,这样的话分析就没法做了。做评估第二大敌是所谓“业务常识”,经常有业务部门跳出来“你做过业务吗?老夫从业10年都没见过这样的”。做评估的第三大敌是领导意见,领导就是不想下这个结论,你咋办?只能回来改ppt啊。所以你看,做评估的算法有很多,真正用起来少,还真不能怪我们没本事。

以上就是对常用方法的简单总结。恭喜坚持到这里的同学,上述总结的思维导图如下,大家可以收藏了。不过这里只归纳了文章中提及的一些内容,可能有遗漏,这里也没有结合具体业务场景,大家可以根据自己的实践再加以补充。

【突破面试】你使用过哪些数据分析的方法?

全文只是一个概览,如果大家有兴趣的话,后边陈老师有动力慢慢分享。需注意的是,如果是面试时讲自己用的数据分析方法,一定要和自己简历里的工作内容对的上,不然人家指着简历随口一句:你在哪个工作项目中用的这些方法?具体怎么用的?数据如何?估计就问崩了。 面试千万条,真实第一条,瞎编易穿帮,失业两行泪

如果是在实际工作中,则要因地制宜选择方法。遇到事先问三问:

  1. 数据足不足够

  2. 时间允不允许

  3. 业务买不买单

在企业中,不是方法越难越有价值,而是越能帮助到业务才越有价值。同样效果前提下,方法越简单越好。因此真正做工作的时候,往往是在时间、数据、业务需求限制下,选择最短平快的方法。至于复杂的方法,可以在工作有余力的时候自己尝试。想探索数学的奥秘,可以去读个博士做科研。在企业做数据分析是为了助力业务,并不是自己嗨,一定要牢记这点。

更不用说,很多企业的数据化管理程度之低,还停留在“我就要个数,一个数而已”或者“让你的人工智能阿尔法大狗子帮我解决下和这个问题”两个极端上。数据真正发挥价值,靠的是体系化运作,不是某个大数据神人掐指一算,切记切记。

欢迎关注陈老师公众号,持续追剧哦

【突破面试】你使用过哪些数据分析的方法?

想系统提升数据分析能力的,戳{ 数据分析师八大能力培养 }

【突破面试】你使用过哪些数据分析的方法?

本文由陈老师 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。

转载、引用前需联系作者,并署名作者且注明文章出处。

本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

The Everything Store

The Everything Store

Brad Stone / Little, Brown and Company / 2013-10-22 / USD 28.00

The definitive story of Amazon.com, one of the most successful companies in the world, and of its driven, brilliant founder, Jeff Bezos. Amazon.com started off delivering books through the mail. Bu......一起来看看 《The Everything Store》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具