作者: herain R语言中文社区专栏作者
知乎ID: https://www.zhihu.com/people/herain-14
个人公众号: 趣味数据周刊
本篇统计学知识点:
统计描述:
统计量包括:衡量中心趋势的均值、中位数、众数,衡量相对位置的分位数,
衡量离散程度的方差和标准差,以及衡量相关性的Pearson相关系数。
统计图则包括直方图、ECDF图、箱图和散点图。
统计推断:假设检验
提起 「肥」与「瘦」不由的想起了苏轼 老人家的诗词《孙莘老求墨妙亭诗》其中一句传为经典:“短长肥瘦各有态,玉环飞燕谁敢憎”,促成 “环肥燕瘦”一词。苏轼诗词韵味无一,但诗意却有点武断,不可否认“短长肥瘦各有态”,但“玉环飞燕谁敢憎”有点主观异端。今天如果我们把“谁”代指财富,不想看看 “富” 是憎肥?还是憎瘦。也巧妙的证伪本文主题。
先一睹,以肥为美的唐美人:杨玉环
杨玉环
托夫勒斯基赵四说:“ 没有调查没有发言权,没有数据也不敢妄下断言 。“
数据来源:
CDC(Center for Disease Control and Prevention)#疾病预防控制中心
BRFSS (Behavioral Risk Factor Surveillance System)#行为风险因素监测系统
网站数据地址:https://www.cdc.gov/brfss/annual_data/annual_2015.html
About BRFSS:
The Behavioral Risk Factor Surveillance System (BRFSS) is the nation's premier system of health-related telephone surveys that collect state data about U.S. residents regarding their health-related risk behaviors, chronic health conditions, and use of preventive services. Established in 1984 with 15 states, BRFSS now collects data in all 50 states as well as the District of Columbia and three U.S. territories. BRFSS completes more than 400,000 adult interviews each year, making it the largest continuously conducted health survey system in the world.
大意:BRFSS机构每年走访调查美国50个州的40万成年人的各项(2018有200多项)健康相关指标。数据权威性高,准确度高。
本文提取两个数据指标: BMI (体重/身高计算的平方而来),BMI指数,用来衡量人的胖瘦程度,BMI指数越高人越胖。income(收入等级),这里分了8级,分别用数字1到8代表,8级是年家庭收入超过7.5万美元的人群,在这里我们将8级的人群定义为富人,其他1-7级的人群定义为普通人。过滤存在缺失值的调查数据,有效数据行数:343092行。分成如下两组数据:
两组数据概览
从表中我们可以初步的看出 富人的BMI的平均值27.45小于普通人的BMI平均值28.58,心虚的似乎富人比普通人更瘦一些(富人与普通人的均值差:27.45-28.58= -1.09)。为了防止真实情况“被平均”,我们进一步计算两组数据的中位数,众数。至此,我们仍然无法理直气壮的给出答案。需要更进一步的探索
两组数据的中位数与众数
我们来看看两组数据的分布情况,绘制直观的直方图,两组数据的BMI都集中在「20~40」之间。也存在异常值的BMI在「60~100」的个例。
为了更清新和准确的的对比两组数据,我们忽略掉异常BMI值的影响,选取BMI在「10~60」的区间数据,做两组数据的偏度对比图,根据偏度是不是可以发现点什么呢?:
两组数据的偏度对比
接着我们绘制更直观的 经验累积分布函数图:ECDF(Empirical Cumulative Distribution Function),原理:将两组BMI数据从小到大排列,并用排名除以总数计算每个数据点在所有数据中的位置占比。比如总共100个数据中排第20位的数据,其位置占比为20/100=0.2 。将所有的数据以BMI值为横坐标(X轴),占比值为「0~1」的纵轴(Y轴):
两组数据的ECDF图
从两组数据的ECDF图普通人群(绿色点)比富人(蓝色点)的分布更靠右,即向BMI变大的方向偏移。也可以看出富人较普通人偏廋。不如我们更清新的看看两组的数据的箱线图:
看看两张数据的方差和标准差:
rich people: Variance = 34.81, Standard deviation = 5.90
ordinary people: Variance = 48.60, Standard deviation = 6.97
当考虑了样本数据的离散度后,就能够更精准的衡量两类人群BMI值的差异,即使用一个新的量:Cohen's d,它可以简单看做是均值的差值除以两个样本综合的标准差。其公式定义如下:
计算的Cohen’s d的绝对值是0.163,0.163代表两类人群的BMI值有差异,经过几番层层的验证,我们可以初步的一个结论:富人较普通人偏瘦。
我们再看看 BMI 与体重的相关性(协方差,相关系数,读者自己计算吧):
散点图
是否,是否,总是富肥穷瘦?答案是:否。
用假设检验的方法来,再一次验证结论,提高可靠性。
开始假设检验(统计推断的重要方法):
(1) 结合问题建立假设;
问题:富人的BMI平均值是否等于,总体所有人的BMI平均值?
建立假设:
原假设:富人的BMI均值等于总体所有人的BMI均值28.188。
备择假设:富人的BMI均值小于总体所有人的BMI均值28.188.#这是一个单边检验问题。
(2) 选择检验统计量;
选择t统计量检验方法,也可选择z统计量检验方法。
(3) 给出显著性水平;
我们选择显著水平的值为:0.1
(4) 根据样本数据,计算检验统计量样本值;
提取富人的BMI集合:x <- 富人的BMI值的向量
(5) 在原假设成立的条件下,根据检验统计量的样本值和检验统计量的分布,计算p值;
t.test(x, mu = 28.188);计算出p值:0.000000001
(6) 比较 显著性水平 和p值,若p值小于 显著性水平,则拒绝 原假设;否则接受原假设。
因为p值小于0.1的显著水平,所以我们拒绝原假设,选择备择假设,富人的BMI均值小于总体所有人的BMI 均值。
在经济快速发展的今天,人们物质生活水平不断提高的社会,“富不一定肥,穷不一定瘦”也是社会进步的一种表现。同时心中有一个很大的“问号”,为什么“富缺偏瘦”,富与瘦到底有没有因果关系?谁是因?谁是果呢?
有人认为:“富人因为拥有高于常有的财富,他们拥有健康的三餐,享受健康的医疗”。
有人认为:“拥有自律的生活,积极的锻炼,对自己身材有掌控力的人,他们更容易获得财富”
是否难断,但是 富和瘦是存在相关性的,也许在这个快速发展的社会,可以说胖是对穷的一种潜标签,不管是富憎肥,还是穷憎瘦。我们都应在提醒自己保持健康的生活方式,强有力的体魄都是我们必须的,祝大家远离肥胖,健康多金。
最后,一窥瘦也极致的大汉美人:赵飞燕
今日话题:
你心中的古代美女是谁?快快将你的答案写在评论区。
往期精彩:
公众号后台回复关键字即可学习
回复 爬虫 爬虫三大案例实战
回复 Python 1小时破冰入门
回复 数据挖掘 R语言入门及数据挖掘
回复 人工智能 三个月入门人工智能
回复 数据分析师 数据分析师成长之路
回复 机器学习 机器学习的商业应用
回复 数据科学 数据科学实战
回复 常用算法常用数据挖掘算法
本文由R语言中文社区 创作,采用 知识共享署名-相同方式共享 3.0 中国大陆许可协议 进行许可。
转载、引用前需联系作者,并署名作者且注明文章出处。
本站文章版权归原作者及原出处所有 。内容为作者个人观点, 并不代表本站赞同其观点和对其真实性负责。本站是一个个人学习交流的平台,并不用于任何商业目的,如果有任何问题,请及时联系我们,我们将根据著作权人的要求,立即更正或者删除有关内容。本站拥有对此声明的最终解释权。
以上所述就是小编给大家介绍的《是否,是否,总是富肥穷瘦?》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- 容器是否取代了虚拟机,这四大理由是否打动你?
- BERT是否完美,语言模型又是否真正地「理解了语言」呢?
- objective-c – 如何检查CGSize是否已初始化(或者其值是否与“nil”不同)
- 判断是否是闰年
- Flutter 设置控件是否可见
- Flutter 设置控件是否可见
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。