内容简介:本笔记以秦路老师的文章「初入数据分析的大门,笔记大部门的知识模块以阅读原资料总结、整理而得,难免有理解偏差、错误的地方。若有不正当的解释,还望朋友不吝指教!
本笔记以秦路老师的文章「 如何七周成为数据分析师 」为内容框架,整合相关的论文、书籍、视频资料,输出学习笔记,主要目的是检验自己的学习效果和日常复习之需。
初入数据分析的大门,笔记大部门的知识模块以阅读原资料总结、整理而得,难免有理解偏差、错误的地方。若有不正当的解释,还望朋友不吝指教!
更新进度
- 2018.09.29:完成初稿,形成笔记的整体框架。
学习框架
-
整体框架
:本笔记以秦路老师的文章「 如何七周成为数据分析师 」为内容框架,整合相关的论文、书籍、视频资料,输出学习笔记。 -
数学部分
:数据分析,离不开数学。关于学习资料的选择,这里推荐盛骤老师的《概率论与数理统计·第4版 》和张宇老师的 《 带你学概率论与数理统计·浙大四版 》。
由于自己数学基础差,故选择了
大学教材
和考研辅导书
,希望借以习题辅导书复习教材内容,以短时间获得最大成效比。 -
统计部分
:很遗憾对此部分知识不了解,同时也是自身后期需要强化学习的模块。 -
数据库部分
:在秦路老师的文章中,数据库部分侧重 SQL ( 结构化查询语言 ) 的讲解,语言学习核心的一点:理解、多写、多练
。当然,数据库的知识不仅如此,有兴趣的朋友可继续参阅书籍《数据库系统概念》$^{[1]}$,即以数据库工程师的角度出发,从需求分析到数据库维护的流程化学习过程。- :book: Abraham Silberschatz. 数据库系统概念. 机械工业出版社
- :book: 福达(Ben Forta). SQL 必知必会. 人民邮电出版社
- :memo: W3CSchool SQL 教程 & 练习题
- :memo: LeetCode SQL 练习题
-
编程部分
:主导 Python 语言。由于篇幅的缘故,该部分内容已转移至另一篇博文 Python 3 入门系列教程 。
数据分析初体验
Excel:不考虑性能和数据量
-
[x] 掌握各类功能强大的函数 — 常见 Excel 函数
substotal datedif
-
[x] Excel 常用工具 — 数据分析:Excel 技巧大揭秘
-
格式转换
:自定义格式规范时间。2016/11/11 写成 yyyy/MM/dd
2016-11-11 23:59:59 写成 yyyy-MM-dd HH:mm:ss
-
分列
:分列功能可以将某一列按照特定规则拆分,常常用来进行数据清洗。 -
数据透视表
:数据透视表的核心思想是聚合运算,将字段名相同的数据聚合起来,所谓数以类分。列和行的设置,则是按不同轴向展现数据。简单说,你想要什么结构的报表,就用什么样的拖拽方式。
-
删除重复项
:一种数据清洗和检验的快速方式。想要验证某一列有多少个唯一值,或者数据清洗,都可以使用。 -
自定义下拉菜单
(数据有效性):数据有效性是一种约束,针对单元格限制其输入,也就是让其只能固定几个值。下拉菜单是一种高阶应用,通过允许下拉箭头即可。 -
查找公式错误
:公式报错也不知道错在哪里时候可以使用该功能,尤其是各类IF嵌套或者多表关联,逻辑复杂时。查找公式错误是逐步运算的,以方便定位。 -
分组和分级显示
:常用在报表中,在报表行数多到一定程度时,通过分组达到快速切换和隐藏的目的。 -
分析 工具 库
:分析工具库是高阶分析的利器,包含很多统计计算,检验功能等工具。Excel是默认不安装的,要安装需要加载项,在工具菜单下(不同版本安装方式会有一点小差异)。分析工具库是统计包,如随机数发生器、排位与百分比排位、回归、抽样、t-检验等。
-
-
[x] Excel 实战教程 — 数据分析:手把手教你Excel实战
-
明确目的
- 数据用来解决什么问题?
- 汇总统计制作报表?
- 数据可视化,作为一张信息图?
- 验证某一类业务假设?
- 提高某一个指标的KPI?
-
观察数据
-
数据有无缺失值
- 某一字段缺失数据较多,要考虑是否删除该字段(超过 50% 即没有业务意义了)
- 数据是否一致化
- 数据是否有脏数据:乱码,错位,重复值,未匹配数据,加密数据
- 数据标准结构
-
数据有无缺失值
-
数据清洗:结合
观察数据
阶段完成的工作,对数据进行预处理操作
。 -
分析过程
- 数据透视表
-
明确目的
- 单元格格式:数据分析师会和各种数据类型打交道,包括各类 timestamp,date,string,int,bigint,char,factor,float 等。
- 了解中文编码:UTF-8、GBK、ASCII 码。
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 数据分析的三大框架:底层技术、分析建模、工具选择
- Nfstream:一款易于扩展的网络数据分析框架
- 记一次安全培训中对Yii框架数据库操作层若干接口安全性分析的总结
- 数据分析是什么,如何完善数据分析知识体系
- 大数据分析工程师入门(二十):数据分析方法
- 蚂蚁数据分析平台的演进及数据分析方法的应用
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
穿越计算机的迷雾
李忠 / 电子工业出版社 / 2011-1 / 36.00元
《穿越计算机的迷雾》从最基本的电学知识开始,带领读者一步一步、从无到有地制造一台能全自动工作的计算机。在这个过程中,读者可以学习到大量有趣的电学、数学和逻辑学知识,了解到它们是如何为电子计算机的产生创造条件,并促使它不断向着更快、更小、更强的方向发展。通过阅读《穿越计算机的迷雾》,读者可以很容易地理解自动计算实际上是如何发生的,而现代的计算机又是怎么工作的。以此为基础,在《穿越计算机的迷雾》的后面......一起来看看 《穿越计算机的迷雾》 这本书的介绍吧!