数据挖掘复习笔记---02.数据

栏目: 数据库 · 发布时间: 6年前

内容简介:数据

数据

四个问题

  • 数据类型(用什么类型,用什么工具)
  • 数据质量(噪声,离散点,缺失值,异常点,重复)
  • 预处理(提高数据质量,使数据可以被特定的 工具 处理)
  • 相似性和距离度量

本节大纲

  • 关于数据的基本概念
  • 如何用统计学方法描述数据
  • 度量数据之间的相似性和距离

基本概念

  • 数据集

    特性:维度,稀疏程度

    类型:结构化记录,图像,时间序列数据

  • 属性

    种类:分类数据(Categorical),数值型/量化数据(Quantitative),离散、连续

统计学描述

  • Median, 中位数
  • Midrange, 中列数 = (min + max) / 2

对称性

  • Skewness, 倾斜程度 = Mean - Mode, Skewness

    Skewness = 0, 对称, Symmetric

    数据挖掘复习笔记---02.数据

    Skewness > 0, 均值大于众数, 正向倾斜, Positively skewness

    数据挖掘复习笔记---02.数据

    Skewness < 0, 均值小于众数, 负向倾斜, Negatively skewness

    数据挖掘复习笔记---02.数据

Divergence, 差异性

  • Q 分位数(有序序列, %)

    Q0 = min, Q1 = 25%, Q2 = 50%(中位数), Q3 = 75%, Q5 = max

  • Boxplot 盒子图, 实线盒子的上中下边界是 Q3, Q2, Q1, 虚线上下边界是 max, min
  • 方差, Variance

    数据挖掘复习笔记---02.数据

  • 标准差, standard deviation = sqrt(variance)

可视化, Visualization

  • 更加方便直观地体验数据,观察趋势,相关性
  • 直方图

    不同的颜色 --- 不同类别

    不同的高度,宽度 --- 数量

  • 散点图

    To describe whether there are relationships, patterns or trends between two numerical variables, 揭示两个变量之间是否存在关联

    正相关,负相关,不相关

  • 高维数据

    很难同时展示所有维度的数据

    分层展示,树形结构

  • 非数值型数据

    文本:标签,词云,大小颜色

    数据挖掘复习笔记---02.数据

    图:结点的颜色,大小,边的粗细

    数据挖掘复习笔记---02.数据

距离度量

  • 街区距离,曼哈顿距离
  • 欧式距离,欧几里得距离
  • 闵可夫斯基距离, Minkowski Distance

    数据挖掘复习笔记---02.数据

    p = 1 时 变成街区距离, p = 2 时变成欧式距离


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

The Nature of Code

The Nature of Code

Daniel Shiffman / The Nature of Code / 2012-12-13 / GBP 19.95

How can we capture the unpredictable evolutionary and emergent properties of nature in software? How can understanding the mathematical principles behind our physical world help us to create digital w......一起来看看 《The Nature of Code》 这本书的介绍吧!

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

SHA 加密
SHA 加密

SHA 加密工具

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具