内容简介:数据
数据
四个问题
- 数据类型(用什么类型,用什么工具)
- 数据质量(噪声,离散点,缺失值,异常点,重复)
- 预处理(提高数据质量,使数据可以被特定的 工具 处理)
- 相似性和距离度量
本节大纲
- 关于数据的基本概念
- 如何用统计学方法描述数据
- 度量数据之间的相似性和距离
基本概念
-
数据集
特性:维度,稀疏程度
类型:结构化记录,图像,时间序列数据
-
属性
种类:分类数据(Categorical),数值型/量化数据(Quantitative),离散、连续
统计学描述
- Median, 中位数
- Midrange, 中列数 =
(min + max) / 2
对称性
-
Skewness, 倾斜程度 = Mean - Mode, Skewness
Skewness = 0, 对称, Symmetric
Skewness > 0, 均值大于众数, 正向倾斜, Positively skewness
Skewness < 0, 均值小于众数, 负向倾斜, Negatively skewness
Divergence, 差异性
-
Q 分位数(有序序列, %)
Q0 = min, Q1 = 25%, Q2 = 50%(中位数), Q3 = 75%, Q5 = max
- Boxplot 盒子图, 实线盒子的上中下边界是 Q3, Q2, Q1, 虚线上下边界是 max, min
- 方差, Variance
- 标准差, standard deviation = sqrt(variance)
可视化, Visualization
- 更加方便直观地体验数据,观察趋势,相关性
-
直方图
不同的颜色 --- 不同类别
不同的高度,宽度 --- 数量
-
散点图
To describe whether there are relationships, patterns or trends between two numerical variables, 揭示两个变量之间是否存在关联
正相关,负相关,不相关
-
高维数据
很难同时展示所有维度的数据
分层展示,树形结构
-
非数值型数据
文本:标签,词云,大小颜色
图:结点的颜色,大小,边的粗细
距离度量
- 街区距离,曼哈顿距离
- 欧式距离,欧几里得距离
-
闵可夫斯基距离, Minkowski Distance
p = 1 时 变成街区距离, p = 2 时变成欧式距离
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 大数据产品经理必备的数据挖掘知识概述(一)认识数据之数据可视化
- 大数据产品经理必备的数据挖掘知识概述(一)认识数据
- 让数据关联产生价值,「创邻科技」以图数据库加速数据挖掘
- 数据挖掘建模:如何从数据中“淘金”?
- 数据挖掘复习笔记---03.数据预处理
- 数据挖掘竞赛指南:曾经的数据挖掘少年,如今的阿里算法大佬
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
JavaScript高级程序设计(第3版)
[美] Nicholas C. Zakas / 李松峰、曹力 / 人民邮电出版社 / 2012-3-29 / 99.00元
本书是JavaScript 超级畅销书的最新版。ECMAScript 5 和HTML5 在标准之争中双双胜出,使大量专有实现和客户端扩展正式进入规范,同时也为JavaScript 增添了很多适应未来发展的新特性。本书这一版除增加5 章全新内容外,其他章节也有较大幅度的增补和修订,新内容篇幅约占三分之一。全书从JavaScript 语言实现的各个组成部分——语言核心、DOM、BOM、事件模型讲起,深......一起来看看 《JavaScript高级程序设计(第3版)》 这本书的介绍吧!