内容简介:2013年从985院校化学专业硕士毕业,进入化工厂成为实验员。2016年经过数月自学,转行成为互联网公司数据分析师。现在知名互联网金融公司,负责信用评分产品的建模工作。
本文是作者在2018年10月16日众智汇社群分享的记录。由 @kellie 记录整理。
作者 : 倪雪华 ,某 互联网金融公司资深分析师 。
2013年从985院校化学专业硕士毕业,进入化工厂成为实验员。2016年经过数月自学,转行成为互联网公司数据分析师。现在知名互联网金融公司,负责信用评分产品的建模工作。
雪华是我们众智汇社群从传统行业转行数据分析的成功范例!
之前曾分享转行经验,及入行第一年的奋斗经过:
如今,雪华为我们带来了入行第二年的经历分享:
从去年5月底入职目前所在公司后,一直从事互联网金融风控相关的建模工作,截止到今天大概有一年零五个月了。
这次分享的主题就是两个字——积累! 这一年主要是在积累,积累经验、技术和职场软技能。
积累互金行业业务经验
对于互联网金融行业,经验的积累主要是指业务能力的积累。
互联网金融的业务类别
大家都知道互联网金融分很多类别:
-
抵押贷,就是房贷、车贷;
-
信用贷——信用卡以外的信用贷,比如宜人贷之类的信用贷;
-
消费分期贷,又分为很多细类:买衣服、买手机、买互联网课程的消费分期贷款等等;
-
小额现金贷——额度比较低的现金贷款,可能就500或者1000,最多1500块。
我在上一家公司,只做手机3C业务——手机的消费贷,接触的贷款类型单一, 进入现公司后,接触的业务类型明显多了,有了业务感觉上的积累。
信用模型 vs 欺诈模型
而且,在上家公司我做的是手机3C业务的信用模型,而 现在主要负责欺诈模型,这两者有很大的区别。
信用模型计算各项总分,看整体结果,但欺诈模型却紧盯短板。
如果你是一个学历比较低的人,那么学历这一项的信用分就会比较低,但是模型的综合输出可以通过其他特征进行补偿。
比如你是已婚,是女性,或者从事的工作是公务员之类相对有保障的职业,那么这些方面的分数会比较高。
最后累加各项得分得出信用分。即使一个人某一项分比较低,也可以通过其他项来得到综合高分。因此信用模型 会有补偿。
欺诈模型中不管各项指标有多么得好,只要有一项出现欺诈风险,就是欺诈。
现在我能够很轻松地跟大家解释清楚 两者区别 。但就这一点,我是狠狠地花了好几个月功夫,才了解清楚,知道欺诈模型的精髓的!
小额现金贷 vs 大额信贷
市面上面能看到的关于风控模型的书基本都是针对大额信贷的。大额信贷跟普通银行贷款、信用卡借款、房贷、银行信用贷款有很大相似。
而小额现金贷,则是和额度比较低的消费分期,例如手机分期类似。这方面的就资料非常少。
而且, 小额现金贷出现得很晚,是一种非常年轻的信贷产品,大概一直到去年春节前后才兴起。 所以市面上也没有什么现成的资料可以借鉴,就需要自己摸索。
小额现金贷刚出来的时候,鼓吹用机器学习整合弱相关变量训练模型。后来实践证明弱相关变量要跟强相关变量结合使用才可以。
开始的时候,大家都还不能确定小额现金贷的强相关变量,所以很难做。经过 一年多的积累,慢慢摸索出来一些强相关、预测力准的变量。
这个强相关变量摸索过程是各家机构、各个公司都必然经历的。我个人感觉,这个过程就是靠想象、靠灵感。
比如我刚进公司的时候做的一个社交关系网的模型——拿到的数据是所有客户的通讯录,要求我根据通讯录做一个社交关系网的模型出来。
整个建模的摸索过程非常痛苦,用了很长时间。最后摸索出来了:将联系人分为一阶联系人和二阶联系人,比如a打电话给b,b又打电话给c,那么b就是a的一阶联系人,c就是a的二阶联系人。
现在这种方法在市场上比较多,但是一开始都是大家在摸索。当时幸亏有 我们老板带着,以我自己当时的水平肯定做不出来的。
在工作的过程中,会发现一些 反业务直觉的事情。 举个例子——
我们原本认为:如果一个人借过小额现金贷(比如曾经借过500块或者1000块钱),再来借1万块钱的大额信贷,这个人很大概率上就是一个坏客户!
为什么呢?我们这么想:因为这1万块钱的额度就算分12期还,每个月要还的钱也有一两千块。如果这个人连500到1000块钱都需要借,说明其还款能力是有问题的。
那么反过来,如果一个人先借了大额信贷,再来借小额现金贷,我们也认为此人会是一个坏客户!
这种情况下我们想的是:这个人已经借了大额贷款,都有这么多钱了,还来借小额现金贷,连500、1000块钱都仍然想要,说明这个人就是来骗钱、套现的。
以上是我们直觉的考虑。 但实际上,通过数据分析发现,小额现金贷人群的表现并不是这样的,是否借过大额信贷跟小额现金贷的还款行为没有强相关关系!
这些都在长期的实践过程中,日积月累下来的业务经验。没有什么捷径可走,只能是自己一点一滴地慢慢地积累。
积累 数据分析技术、工具
除了经验,技能的积累也非常重要。主要包括: 模型、代码,和数据库。
模型
我们常用的模型有:逻辑回归、Lasso、随机森林、决策树等。
在动手做项目前,单纯从书本上学习到的对模型的理解,和反复调模参以获得更高 预测准确率 过程中认识到的模型,是不一样的。
对模型的参数的理解,以及衡量指标(比如准确率、ROC之类)的认识,都是很不同的。
需要在长时间的实践中,多次建模、调参的过程中慢慢积累, 实践、探索、琢磨,才能够比较深刻地理解它们的意义。
代码
我习惯用的数据分析 工具 是SAS。做数据分析的很多人都用 Python 和R。
现在我也开始用Python和R了,主要是因为:
-
一方面有些机器学习模型SAS支持得不好;
-
另一方面SAS无法并行工作,一旦开始跑一个需要很长时间的程序,SAS就不能在接受新任务了,只能等着。
在等SAS的间隙,我会用Python来做一些简单的工作,这样就会比较充分地利用时间。
其实我也没有系统地学过SAS,最开始就是拿前辈写好的现成代码自己慢慢改,想要什么功能就去百度,这样一点一点学的。
这样做固然上手快,但基础很不扎实。 SAS运行的原理不是很清楚,随之而来的问题是:写出来的代码可以跑出结果,但是运行速度不够快。
工作任务繁重的时候,需要快速地计算出结果,这就要优化代码。我优化代码的能力也是在实践的过程中慢慢地学习和积累的。
数据库
我们公司用的数据库是Oracle。
上一家公司虽然也用Oracle,但是因为业务也比较单一,IT的同事负责把我们风控建模可能用到的所有数据做成了一个大表(table),我只要查找单一table就可以了。
来了现在公司之后,发现数据库里有各种各样的表,各种各样的关联方法。光数据之间的关联,我都理解了很长时间。
经过一段时间,对于Oracle的数据库慢慢熟悉起来,对它们互相关联的套路也比较了解了之后,查找数据库就简单多了。
工作流程和方法
每次老板给了一个新任务之后,需要:
-
快速地熟悉和了解数据;
-
结合老板的目标,自己的业务感觉和数据库里能够拿到的数据,迅速地找到能够完成这个目标的路径或者方法;
-
沿着自己的思路一步一步去实现这个目标。
如果出现了问题,能够想到用什么样的方法去解决这个问题。如果问题解决不了,能够找到解决问题的方法,或者能知道去哪儿找。
这些都是在实践中慢慢积累的。
积累 职场软技能
业务和技术属于硬技能,沟通、协调、向上管理等职场软技能,也是必须积累的。
说来惭愧,我已经工作五年了。按理来说,工作五年的人应该比较能够信手拈来了,但是我 还在学习职场的套路。
沟通和协调
沟通和协调能力比较重要, 尤其是当你独当一面的时候。
比如,要推动一个产品上线,要协调的部门就会很多——要协调产品部,既要完成预计的功能,又要保证产品质量和性能;要协调IT部,讨论资源上的分配问题;还要协调BD部门,收集客户的反馈,保持与客户的顺畅沟通;其他还有运维等部门,都要协调。
我感觉自己的沟通和协调做得不好,但是我在努力学。
最近刚刚 学会两招 :
-
当其他同事的工作成果与你的预想相差甚远,甚至可能根本达不到要求时,首先要再在领导面前肯定他们的工作,毕竟人家努力了; 然后再提出改进意见。不然人家心里会有意见。
-
和其他部门沟通时,常会遇到一些问题,双方各有自己的考虑。怎么说服别人来达到你想要的目标呢?就要找对方的痛点!
比如,我喜欢爬山,想找同事陪我去爬山。有一个同事很犹豫,又想去玩,又没有动力,跟他怎么说他都一直在犹豫。
有一天我发现他是佛教徒,我就说:咱们可以去爬凤凰岭,那里有一个龙泉寺,可以去拜一拜。这样他就有动力了。
向上管理
向上管理,我也是最近才刚刚开始学。网络上有很多讲向上管理的课,大家也可以去听一听。
我个人的感觉:老板对员工是有期望的。可能一开始,老板的期望比较低,如果员工完成任务的水平超出了期望,TA就会调高期望。
那么对于员工而言,如果你想能够更进一步,就要在现有任务上超出老板的期望,TA调高期望,你再超出新的期望,如此迭代,就能够获得更进一步的可能。
这里有个向上管理失败的例子:
我们团队为了防止数据泄密,平时数据都放在虚拟机上,用的时候再临时导入到本地。之前负责将虚拟机上数据导入到本地机的同事离职了,老板就把这项工作交给了我,让我负责团队数据管理。
最初我非常不想接,因为一则接手这项工作经常会被打扰,本来正常地做自己的事,同事甲乙丙都来要求导数据,就要停下来帮他们;二则,这项任务付出很多,却看不到绩效,责任大——万一数据泄露了就是全责,功劳几乎没有。
我其实很想拒绝,可又不知道该如何在不影响老板对我的期望和印象的情况下拒绝,所以就把它接了。但其实心里很排斥 。
我还需要学习,职场必备技能一定要积累!可惜在这方面我还不能分享很多,因为自己还是个菜鸟。
记账——生活中的积累
除了工作中的积累,给大家分享一个我坚持了九年的习惯——记账。
我 从2010年上研究生,学校发补助开始,就在手机上下了app(那个时候还是 Java 手机,还不叫app),给自己设定结余目标。 每个月 拿到钱,先扣除结余数目,再在剩下的钱里消费。
哪怕今天才15号或者是10号,我发现我的钱花完了,或者剩下的钱就只够我剩下的20天吃饭了,这20天就强迫自己不再买东西,把钱省下来。
这个过程非常痛苦,尤其是刚开始的时候,控制自己真的很难。但这是我九年以来唯一坚持下来的一件事。
我工作前两年是在国企,第三年是在一家私有企业,收入并不多。我老公也因为某些原因在前两三年没有往家里拿过钱。
但即使是这样,因为我有储蓄的好习惯,坚持记账,坚持自律,每月严格执行储蓄目标。 到去年,工作四年多之后,就存了一笔钱,加上家里的资助,已经付了首付,买了房子。
北京的房价这么贵,首付怎么也要一百多万。虽然有家里支持,但如果没有我们自己存下的那一笔钱,是不可能在北京买上房子的。这就是坚持和积累的力量。
转行两年的心得总结
从传统行业转入数据分析已经两年了,总结一下两年来的心得:
第一,兴趣是原动力
知道我是转行的朋友,经常会问:在数据分析这行里,你的基础天然就不如别人,要比别人付出更多的努力,你是怎么持续不断地让自己保有热情的呢? 我认为只有一点:兴趣。
你要对自己所作的事有兴趣,没有兴趣就去把兴趣培养出来。一定要从工作中找到乐趣才可以。否则,很难长时间压迫自己干一件不愿意做的事情,即使勉强做了,也不会有什么成就。
今天是我在众智汇社群第三次分享。从我分享这个系列开始,就有很多小伙伴加我的微信,跟我讨论转行数据分析。
我觉得大家在转行之前,先要想清楚,不要只是觉得这个行业赚钱多,或者现在火、热门,就去干这个。以钱或者追热点为驱动的决定,这是没有后劲的。一定要有兴趣才可以。
第二,向着明确的目标持续努力
首先,目标一定要明确。
你不能有模棱两可的目标,一会儿向这个努力一会儿向那儿努力。
其次,持续努力。
一个人想要过得好,坐到比别人高的职位,比别人更体面,比别人收入多,就得打败别人。
而大家都是普通人,互相之间的才干能力资源都没有相差不大。 你怎么能打败别的人,自己脱颖而出呢?
方法就是向着一个确定的目标,坚持不懈地努力。坚持说来简单,但其实大部分人都做不到。而做到的那个,就能够脱颖而出了。
第三,放弃妄想捷径,坚持和积累才是正道
一夜暴富是不可能的;天上不会掉馅饼;就算天上掉了馅饼也不太可能正好砸在你我头上……
大家都是凡夫俗子,真的只有日复一日,年复一年,一点点慢慢的积累,才能让达到想要的目标, 过上想要的生活 。
大家不要小看坚持和积累的力量,这种力量其实是非常非常强大的,比你想象的要大很多。
最后,对自己的行为和选择负责
这一条,我前两次分享也都一直跟大家强调—— 对自己的行为和选择负责是一个人成熟的标志。
无论选择什么样的生活、爱人、行业或者工作,既然选了,就要承担后果,不要推卸、抱怨。
Q1 :通常数据分析岗位面试的时候会问哪些风控的问题?
A1 :其实,我两次换工作面试,面试官都没怎么问风控的问题。 我就把我曾经遇到过的一些风控上的问题,跟大家分享一下。
和风控相关的典型问题有:
-
你所在的公司坏账率是多少?
-
你所在的公司首逾有多少?(一般对于信用贷款,尤其是大额的信用贷款来说,会分几期,比如你借了1万块钱分12期,假设每期还2000块钱,你第一期就没有还,这就叫作首逾。)
和风控建模相关的问题有:
-
模型评价指标上的问题——KS它是什么含义,它是怎样算出来的?ROC是什么含义,是如何算出来的?
-
MIS的问题,例如:怎样根据现有的数据预测未来公司的坏账率。
我觉得这些业务相关问题,如果你是干风控的一线人员,平时注意自己琢磨,都能答上来的。如果是一个新手,人家也不会问这么深,而主要看潜力。
Q2 :坏账率大概在多少合适?
A2 :这个没有一个严格的标准。
一般头部平台的信贷,坏账率很低,甚至能做到接近银行的水平。 但是,小额现金贷的坏账率就往往很高。做得比较差的平台/产品,比如车抵贷、3C产品卖手机的,坏账都非常高。
根据我有限的经验, 越是下沉的坏账率越高,从几个点到几十个点都有的。
Q3 :面试的时候会问数据结构或者算法的问题吗?
A3 :这些问题我没有碰到过。
我感觉面试官问什么和TA对面试者的预期有关,TA会问TA认为面试者应该懂的东西。
Q4 :评分卡模型常用到的算法是什么?
A4 :评分卡信用模型,目前市场上通用的是逻辑回归。
但是在做逻辑回归之前,做特征处理的时候会用到一些别的算法,比如Lasso、随机森林、决策树等。 会做一些mini model,再把这些mini model处理过的数据输入到逻辑回归里面去。
在探索建模的时候,可能会将各种各样的模型都试上一遍。但实际上最后上线的,据我所知,大部分都是逻辑回归。
Q5 :你一般怎么找到解决问题的方法?向同事学习还是看书呢?
A5 :解决问题的方法主要有三种来源:
-
跟同事、跟老板讨论;
-
平常要不间断地看书。这样,遇到问题的时候,你可能会想起来:“我在哪个地方曾经看到过”,就可以返回去找;
-
找百度,如果还没有就找Google。
Q6 :之前没有做过数据分析,想入行该怎么自学?
A6 :首先你可以学一下Oracle DB,也不用学的很深,能把想要的数据从库里取出来就可以。
刚开始转行的话,可能人家也不会要求你的Python、R或者是SAS用得多好,只要Excel,VLOOKUP能用好,就可以去找工作了,在工作中再慢慢实践积累。
学代码就是实践积累,你写得多了自然就会写了。自己看书,或者报一个课程学的内容,通常转头就忘,在实践中一遍一遍写出来的代码,才可以记住。
Q7 :从哪里可以获得好的数据用来学习建模?
A7 :我知道在Kaggle上面会有数据,去下载吧。
Kaggle是一个数据建模、数据挖掘的一个平台,上面有很多比赛,有风控的比赛,也有别的方向建模的比赛。
Q8 :Web前端开发适合转行数据分析师吗?
A8 :我觉得,Web前端转行的,在做把模型布到系统里的工作时,还是有优势的。至少你知道怎么跟IT的人沟通。
我为了学习跟IT部门员工的沟通,费了很大的功夫。因为思维方式的差异,我认为他们懂,其实他们根本就不懂,他们认为我本来就应该完全懂,但是其实我根本也不懂,磨合了很长时间我才终于get到IT同事们的点。 如果你是干Web前端的话,可能就没有这个困扰了。
但是 我还是那句话: 适合不适合,你要找到自己的兴趣,兴趣才是一切的源动力。因为你会天然地面对没有基础的困境,所以你必须得有兴趣才能持续不断地努力。
Q9 :为什么要从国企辞职和转行?
A9 :为什么转行我在我的第一篇 《三个月,从化工实验员到数据分析师》 里讲过了,大家可以去看一下。
为什么辞职?我只能用四个字来形容: 水土不服。 我无法认同国企的价值观,也无法适应国企的官僚文化。
Q10 :四年存一百万,每年平均存有二十五万,请问是因为选择了好的理财方式吗?
A10 :其实四年我只存了50万而已,家里支援了50万,又找亲朋好友借了40万左右。
能借到40万,就是平时人品上的积累吧。你平时跟人相处,别人就会对你有一个判断,你要让别人觉得你是一个靠谱、可信任、知恩图报的人,这样的话就借钱不会很难。
Q11 :存钱需要大量理财知识去购买理财产品吗?
A11 :理财的第一步是你得有钱,有钱的第一步是你得储蓄,储蓄的第一步是你得记账。
存下一笔钱,真的挺不容易的。这就是坚持和积累的力量,真的是积累的魔力,真的是我从小到大我唯一一件坚持了九年的事。
我自己都惊诧于积累原来可以这么强大。反正大家就从手边开始做起,每月记账强制自己存钱吧。
小编直通车:扫描下列二维码,发送“众智汇”加入社群
“众智汇” 愿景
尽职尽才,允公允能 —— 本社群不定期举行线上分享,组织群友分享知识、经验、资源,以达到 让我们每个人的职业生涯得到最大程度的发展 的目的 。
往期线上分享实例
成全自己的热爱与疯狂——从医生到创业者+动漫创作者,梦想使然
欢迎扫面下列二维码关注“悦思悦读”公众微信号
以上所述就是小编给大家介绍的《积累:入行数据分析第二年》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- 常用注解积累
- java日常知识点积累
- Hutool 4.5.2 发布,点滴积累,感动人心
- 10天高仿大厂App及小技巧积累总结
- GitHub优秀三方库推荐以及日常知识积累分享
- 程序员所积累的编程知识在十年后将有多少变得没用?
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Essential C++中文版
[美] Stanley B. Lippman / 侯捷 / 华中科技大学出版社 / 2001-8 / 39.80元
书中以4个面向来表现C++的本质:procedural(程序性的)、generic(泛型的)、object-based(个别对象的)、object-oriented(面向对象的),全书围绕着一系列逐渐繁复的程序问题,以及用以解决这些问题的语言特性。循此方式,读者不只学到C++的函数和结构,也会学习到它们的设计目的和基本原理。一起来看看 《Essential C++中文版》 这本书的介绍吧!