数据挖掘复习笔记---02.数据

栏目: 数据库 · 发布时间: 6年前

内容简介:数据

数据

四个问题

  • 数据类型(用什么类型,用什么工具)
  • 数据质量(噪声,离散点,缺失值,异常点,重复)
  • 预处理(提高数据质量,使数据可以被特定的 工具 处理)
  • 相似性和距离度量

本节大纲

  • 关于数据的基本概念
  • 如何用统计学方法描述数据
  • 度量数据之间的相似性和距离

基本概念

  • 数据集

    特性:维度,稀疏程度

    类型:结构化记录,图像,时间序列数据

  • 属性

    种类:分类数据(Categorical),数值型/量化数据(Quantitative),离散、连续

统计学描述

  • Median, 中位数
  • Midrange, 中列数 = (min + max) / 2

对称性

  • Skewness, 倾斜程度 = Mean - Mode, Skewness

    Skewness = 0, 对称, Symmetric

    数据挖掘复习笔记---02.数据

    Skewness > 0, 均值大于众数, 正向倾斜, Positively skewness

    数据挖掘复习笔记---02.数据

    Skewness < 0, 均值小于众数, 负向倾斜, Negatively skewness

    数据挖掘复习笔记---02.数据

Divergence, 差异性

  • Q 分位数(有序序列, %)

    Q0 = min, Q1 = 25%, Q2 = 50%(中位数), Q3 = 75%, Q5 = max

  • Boxplot 盒子图, 实线盒子的上中下边界是 Q3, Q2, Q1, 虚线上下边界是 max, min
  • 方差, Variance

    数据挖掘复习笔记---02.数据

  • 标准差, standard deviation = sqrt(variance)

可视化, Visualization

  • 更加方便直观地体验数据,观察趋势,相关性
  • 直方图

    不同的颜色 --- 不同类别

    不同的高度,宽度 --- 数量

  • 散点图

    To describe whether there are relationships, patterns or trends between two numerical variables, 揭示两个变量之间是否存在关联

    正相关,负相关,不相关

  • 高维数据

    很难同时展示所有维度的数据

    分层展示,树形结构

  • 非数值型数据

    文本:标签,词云,大小颜色

    数据挖掘复习笔记---02.数据

    图:结点的颜色,大小,边的粗细

    数据挖掘复习笔记---02.数据

距离度量

  • 街区距离,曼哈顿距离
  • 欧式距离,欧几里得距离
  • 闵可夫斯基距离, Minkowski Distance

    数据挖掘复习笔记---02.数据

    p = 1 时 变成街区距离, p = 2 时变成欧式距离


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

疯狂又脆弱  坚定又柔软

疯狂又脆弱 坚定又柔软

朱墨 / 湖南文艺出版社 / 2018-3 / 39.80元

《疯狂又脆弱 坚定又柔软》是朱墨的一部作品集,介绍了作者考研到北京,工作在华谊,以及留学去英国的经历,在这短短几年中她一路升职加薪,25岁升任华谊宣传总监,27岁赚到人生的第一笔100万,30岁却毅然离职去英国留学,在表面的光鲜亮丽之下,她也曾付出过外人所不知道的心血和努力。她的人生告诉我们,每一个身居高位或者肆意潇洒的人,都曾为梦想疯狂地倾尽全力,而那些心怀梦想的人也总是怀揣一颗坚定又柔软的内心......一起来看看 《疯狂又脆弱 坚定又柔软》 这本书的介绍吧!

随机密码生成器
随机密码生成器

多种字符组合密码

XML、JSON 在线转换
XML、JSON 在线转换

在线XML、JSON转换工具

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试