R语言数据科学入门附录A

栏目: R语言 · 发布时间: 5年前

内容简介:###A 统计背景### ####A.1 基本统计术语#### #####A.1.1 均值##### 均值是度量中心最常用的量。尽管可能会引起一些歧义,但是它常被称为``平均数'',均值是所有数据求和然后除以元素的个数。如果我们有$n$个数据点,则均值如下: $$Mean=\frac{x_1+x_2+\cdots+x_n}{n}$$#####A.1.2 中位数 ##### 中位数的计算时首先通过对变量数据从小到达进行排序,排序后,列表中间的元素称为#####A.1.3 标准差##### 接下来我们讨论一个变

###A 统计背景### ####A.1 基本统计术语#### #####A.1.1 均值##### 均值是度量中心最常用的量。尽管可能会引起一些歧义,但是它常被称为``平均数'',均值是所有数据求和然后除以元素的个数。如果我们有$n$个数据点,则均值如下: $$Mean=\frac{x_1+x_2+\cdots+x_n}{n}$$

#####A.1.2 中位数 ##### 中位数的计算时首先通过对变量数据从小到达进行排序,排序后,列表中间的元素称为 中位数 ,如果中间的元素有两个,那么中位数是这两个值的均值。

#####A.1.3 标准差##### 接下来我们讨论一个变量的样本数据集的 标准差 。初一看公式稍微复杂,但是它是度量给定数据与均值离散程度的量,非常重要并需要大家记忆。 $$Standard\ deviation=\sqrt{\frac{(x_1-Mean)^2+(x_2-Mean)^2+\cdots+(x_n-Mean)^2}{n-1}}$$

A.1.4 五数概要

五数概要包括5个值:最小值、第一分位数(百分之二十五分位数)、中位值(百分之五十分位数)、第三分位数(百分之七十五分位数)和最大值。分位数计算如下:

  • 第一分位数($Q_1$):升序数据从开始到中间的中位值
  • 第三分位数($Q_3$):升序数据从中间到结束的中位值

四分位距 定义为$Q_3-Q_1$ 是度量中间50%的数据离散程度的量。五数概要不像均值和标准差那样受异常值的影响。因此,对于有偏数据集推荐使用五数概要。

#####A.1.5分布##### 分布 是数据集中变量或者数据集的一般模式。它通常用来说明数据集中元素出现的频率。它显示数据如何变化并给出典型的元素在数据中的位置。分布最容易通过数据可视化进行查看。

#####A.1.6 异常值##### 异常值 是数据集中落在``正常''值范围外的值。对于(默认的)箱型图来说,异常值落在$Q_1-(1.5 IQR)$之下或者在$Q_3+(1.5 IQR)$之上。

注意这些术语(除了 分布 )仅适用于定量变量。

**原文作者:**Chester Ismay Albert Y. Kim 原文链接: https://moderndive.com/A-appendixA.html

版权声明: 作者保留权利。文章为作者独立观点,不代表数据人网立场。严禁修改,转载请注明原文链接:http://shujuren.org/article/813.html

数据人网: 数据人学习,交流和分享的平台,诚邀您创造和分享数据知识,共建和共享数据智库。


以上所述就是小编给大家介绍的《R语言数据科学入门附录A》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

C++数据结构与程序设计

C++数据结构与程序设计

克鲁斯 / 钱丽萍 / 清华大学出版社 / 2004-1 / 59.00元

《C++数据结构与程序设计》这本精心制作的课本结合面向对象程序设计和C++强有力的特性,构建数据结构的基本思想,设计了程序和有趣的应用。在此过程中,《C++数据结构与程序设计》探讨了作为软件设计基本工具的问题求解和设计原理、数据抽象、递归和算法的比较分析。《C++数据结构与程序设计》使用真实的案例研究、可重用的软件开发和程序设计项目来增强理解。一起来看看 《C++数据结构与程序设计》 这本书的介绍吧!

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

JSON 在线解析
JSON 在线解析

在线 JSON 格式化工具

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码