内容简介:python数据分析于实现,单样本体检验、独立样本体检验、相关分析、列联表分析!
1、假设检验
做出一个假设,去验证。
需要设定置信度,如95%
两类错误:
两类错误是概率
原假设一般为等式。
样本量的影响:
步骤:假设—置信度—收集数据—计算p值判断
T检验
拒绝域和接受域。
单样本T检验,没有数据,这个课程没有数据,很遗憾,一会在找数据从新做一遍!
两变量
男生和女生的月均支出是否有差异?
方差是否相等?F检验!
开始,t统计量!
数据说明,目的为筛选变量
方差分析
教育程度对信用卡支出是否有差别?
总变异说明:
组内变异:
组间变异:
自己理解:总变异:(单个样本的均值 -总体样本的均值)的平方和
组内变异: 这个组(样本的值- 这个样本所在组的均值)的平方和 + 另一组(样本的值- 这个样本所在这个组的均值)平方和
组间变异:(每个组的均值-总体的平均值)的平方和
我能理解,别人能不能理解我不知道,看实例很容易理解!
F统计量
要求,这些要达到
数据要求,按一列一列的,所以创建这个数据,然后用F_onewasy()函数去实现!后面的值就是p值。
这是利用statsmodels去实现也能得到方差分析的结果
多因素方差分析
r方
做个线性回归就出来:
加上交互项
两连续变量!
相关分析:
散点图:看是否线性。是否相关。先大概看看!
相关系数介绍,用最多pearson。
相关系数的计算
相关系数与相关性之间关系
相关系数的检验
看看代码:
散点图
计算相关系数
一般不去相关系数的可信度,只要样本量足。
分类和分类的比较
分类变量相关关系
列联表分析
经理脾气和天气是否相关:无
有相关:
违约与破产之间的分析,行轮廓是比较列
列轮廓是比较行 如果相差不大,就说明影响不大。这是比较粗糙的分析。不严谨!
用稍微严谨的方法:
假设检验
卡方检验1:
卡方检验2:
python的实现:
这是频率表!
数据是一个交叉表:
以上都是总体为正太分布的。。。。。。。
注意一下 :非正态可以考虑变成正太分布。
:样本量不可太小,但是也不能太大。这个公式 上下都有N,样本量大了会影响统计量T的变化!
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
无懈可击的Web设计
【美】Dan Cederholm / 马跃 / 清华大学出版社 / 2012-5 / 39.00元
本书将指导您采用标准设计策略来满足以各种方式浏览网页的各类用户的需要。每章首先列举一个沿用传统HTML技术的实例,然后指出该实例的局限性,并利用XHTML和CSS对其进行重构。从中您将学会如何用简洁高效的HTML标记和CSS来取代臃肿的代码,从而创建加载速度极快、能供所有用户使用的网站。本书最后将前面各章讨论的所有页面组件珠联璧合地结合在一起,制作了一个页面模板。这一版全面润色和更新了上一版本,介......一起来看看 《无懈可击的Web设计》 这本书的介绍吧!