内容简介:python数据分析于实现,单样本体检验、独立样本体检验、相关分析、列联表分析!
1、假设检验
做出一个假设,去验证。
需要设定置信度,如95%
两类错误:
两类错误是概率
原假设一般为等式。
样本量的影响:
步骤:假设—置信度—收集数据—计算p值判断
T检验
拒绝域和接受域。
单样本T检验,没有数据,这个课程没有数据,很遗憾,一会在找数据从新做一遍!
两变量
男生和女生的月均支出是否有差异?
方差是否相等?F检验!
开始,t统计量!
数据说明,目的为筛选变量
方差分析
教育程度对信用卡支出是否有差别?
总变异说明:
组内变异:
组间变异:
自己理解:总变异:(单个样本的均值 -总体样本的均值)的平方和
组内变异: 这个组(样本的值- 这个样本所在组的均值)的平方和 + 另一组(样本的值- 这个样本所在这个组的均值)平方和
组间变异:(每个组的均值-总体的平均值)的平方和
我能理解,别人能不能理解我不知道,看实例很容易理解!
F统计量
要求,这些要达到
数据要求,按一列一列的,所以创建这个数据,然后用F_onewasy()函数去实现!后面的值就是p值。
这是利用statsmodels去实现也能得到方差分析的结果
多因素方差分析
r方
做个线性回归就出来:
加上交互项
两连续变量!
相关分析:
散点图:看是否线性。是否相关。先大概看看!
相关系数介绍,用最多pearson。
相关系数的计算
相关系数与相关性之间关系
相关系数的检验
看看代码:
散点图
计算相关系数
一般不去相关系数的可信度,只要样本量足。
分类和分类的比较
分类变量相关关系
列联表分析
经理脾气和天气是否相关:无
有相关:
违约与破产之间的分析,行轮廓是比较列
列轮廓是比较行 如果相差不大,就说明影响不大。这是比较粗糙的分析。不严谨!
用稍微严谨的方法:
假设检验
卡方检验1:
卡方检验2:
python的实现:
这是频率表!
数据是一个交叉表:
以上都是总体为正太分布的。。。。。。。
注意一下 :非正态可以考虑变成正太分布。
:样本量不可太小,但是也不能太大。这个公式 上下都有N,样本量大了会影响统计量T的变化!
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
数据结构(C语言版)
严蔚敏、吴伟民 / 清华大学出版社 / 2012-5 / 29.00元
《数据结构》(C语言版)是为“数据结构”课程编写的教材,也可作为学习数据结构及其算法的C程序设计的参数教材。 本书的前半部分从抽象数据类型的角度讨论各种基本类型的数据结构及其应用;后半部分主要讨论查找和排序的各种实现方法及其综合分析比较。其内容和章节编排1992年4月出版的《数据结构》(第二版)基本一致,但在本书中更突出了抽象数据类型的概念。全书采用类C语言作为数据结构和算法的描述语言。 ......一起来看看 《数据结构(C语言版)》 这本书的介绍吧!
JSON 在线解析
在线 JSON 格式化工具
RGB转16进制工具
RGB HEX 互转工具