内容简介:今天学到pandas的一个扩展库-这里我们使用
今天学到pandas的一个扩展库- pandas-profiling
,该库可以从dataframe中生成报告文件。实际上df.describe()就是能实现类似的功能,但是对于数据分析初期的数据探索略微有些鸡肋。
pandas-profiling
可以在html动态交互页面中呈现如下统计信息:
-
基础信息:类型、唯一值、缺失值
-
分位数统计量:如最小值,Q1,中位数,Q3,最大值,范围,四分位数范围
-
描述性统计量:均值、标准差、和、中位绝对偏差、变异系数、峰度、偏度
-
最常出现的值
-
直方图
-
相关系数:高度相关的变量、斯皮尔曼和皮尔森矩阵
安装
pandas-profiling例子
这里我们使用 气象学会 的综合数据集,该数据集包含所有已知陨石着陆的信息。 由Javier de la Torre收集,提供了一个由34,513个陨石组成的XLS文件,其中包括以下字段:
我们先读取数据看看
生成一些实验数据
为了方便学习pandas_profiling库,我们生成一些缺失值、随机值、高度自相关等特点的信息。
输出分析报告
在notebook的Cell内输出dataframe的分析报告
具体我们看看详细的报告,注意图片中的Toggle Detail也是可以点击查看更详细的信息。
报告真的很详细美观,很适合用到数据探索阶段。
将报告输出到html文件中
有时候我们需要将分析报告分享给其他人,这时候我们就需要将报告输出为html文件方便其他人查看。
profiling对象行内显示
刚刚上面的pfr变量是profiling对象,可以直接在行内显示具体的报告信息
高级用法
pandas_profiling.ProfileReport()函数有以下参数,我们可以根据需要自定义
-
bins (int):直方图的列数(默认为10).
相关性设置:
-
check_correlation: 布尔型值,是否检验相关性,默认为True
-
correlation_threshold: 浮点值(值域0-1),该值用来设置判定两个变量之间是否为相关。默认阈值为0.9,在社科类中,这个参数可以用来诊断变量间的共线性问题
-
correlation_overrides: (list): Variable names not to be rejected because they are correlated (None by default).
-
check_recoded (boolean): 布尔型值,用来诊断记录间是否存在相关性,因为这种计算比较消耗计算能力,所以建议只在小样本量的情况下使用。
-
pool_size:整数型,并行加快计算,该参数默认与CPU的个数相等。
推荐阅读
【视频教程】python爬虫 | 文本分析 | 机器学习快速入门
cufflinks: 让pandas拥有plotly的炫酷的动态可视化能力
使用Pandas、Jinja和WeasyPrint制作pdf报告
大神kennethreitz写出requests-html号称为人设计的解析库
如果想要获取更多例子,可以关注本公众号,
后台回复 ' 20190506 ' 获得本教程及扩展教程的notebook代码下载方式
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- iOS 12 人机交互指南:交互(User Interaction)
- 生活NLP云服务“玩秘”站稳人机交互2.0语音交互场景
- asyncio之子进程交互
- 以太坊交互工具
- 学习 PixiJS — 交互工具
- Python基础(7)-用户交互
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Programming Amazon Web Services
James Murty / O'Reilly Media / 2008-3-25 / USD 49.99
Building on the success of its storefront and fulfillment services, Amazon now allows businesses to "rent" computing power, data storage and bandwidth on its vast network platform. This book demonstra......一起来看看 《Programming Amazon Web Services》 这本书的介绍吧!