数据挖掘复习笔记---02.数据

栏目: 数据库 · 发布时间: 6年前

内容简介:数据

数据

四个问题

  • 数据类型(用什么类型,用什么工具)
  • 数据质量(噪声,离散点,缺失值,异常点,重复)
  • 预处理(提高数据质量,使数据可以被特定的 工具 处理)
  • 相似性和距离度量

本节大纲

  • 关于数据的基本概念
  • 如何用统计学方法描述数据
  • 度量数据之间的相似性和距离

基本概念

  • 数据集

    特性:维度,稀疏程度

    类型:结构化记录,图像,时间序列数据

  • 属性

    种类:分类数据(Categorical),数值型/量化数据(Quantitative),离散、连续

统计学描述

  • Median, 中位数
  • Midrange, 中列数 = (min + max) / 2

对称性

  • Skewness, 倾斜程度 = Mean - Mode, Skewness

    Skewness = 0, 对称, Symmetric

    数据挖掘复习笔记---02.数据

    Skewness > 0, 均值大于众数, 正向倾斜, Positively skewness

    数据挖掘复习笔记---02.数据

    Skewness < 0, 均值小于众数, 负向倾斜, Negatively skewness

    数据挖掘复习笔记---02.数据

Divergence, 差异性

  • Q 分位数(有序序列, %)

    Q0 = min, Q1 = 25%, Q2 = 50%(中位数), Q3 = 75%, Q5 = max

  • Boxplot 盒子图, 实线盒子的上中下边界是 Q3, Q2, Q1, 虚线上下边界是 max, min
  • 方差, Variance

    数据挖掘复习笔记---02.数据

  • 标准差, standard deviation = sqrt(variance)

可视化, Visualization

  • 更加方便直观地体验数据,观察趋势,相关性
  • 直方图

    不同的颜色 --- 不同类别

    不同的高度,宽度 --- 数量

  • 散点图

    To describe whether there are relationships, patterns or trends between two numerical variables, 揭示两个变量之间是否存在关联

    正相关,负相关,不相关

  • 高维数据

    很难同时展示所有维度的数据

    分层展示,树形结构

  • 非数值型数据

    文本:标签,词云,大小颜色

    数据挖掘复习笔记---02.数据

    图:结点的颜色,大小,边的粗细

    数据挖掘复习笔记---02.数据

距离度量

  • 街区距离,曼哈顿距离
  • 欧式距离,欧几里得距离
  • 闵可夫斯基距离, Minkowski Distance

    数据挖掘复习笔记---02.数据

    p = 1 时 变成街区距离, p = 2 时变成欧式距离


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

The Lean Startup

The Lean Startup

Eric Ries / Crown Business / 2011-9-13 / USD 26.00

更多中文介绍:http://huing.com Most startups fail. But many of those failures are preventable. The Lean Startup is a new approach being adopted across the globe, chan ging the way companies are built and ......一起来看看 《The Lean Startup》 这本书的介绍吧!

在线进制转换器
在线进制转换器

各进制数互转换器

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具