Modin:一行代码让pandas加速数十倍

栏目: IT技术 · 发布时间: 6年前

内容简介:但pandas有一个弱点:不适用于大规模数据。

寒假何不学python  | Python数据分析实战(学术)

p andas库是 python 中最有名的数据分析库,因为dataframe这种易用强大的数据类型,pandas成为数据科学必备套件。 pandas可以和很多包联合使用,比如与机器学习sklearn、统计分析statsmodels、可视化searborn&matplotlib等等。 下图是近几年python包的使用量趋势,pandas一骑绝尘

Modin:一行代码让pandas加速数十倍

但pandas有一个弱点:不适用于大规模数据。

pandas默认只调用电脑单个的CPU进行数据读取和运算,但是当前的电脑大多是4核,甚至8核,而如果常规使用pandas意味着我们没有充分使用电脑的性能。

Modin是为加速pandas而开发的包,可以自动按照电脑CPU数调整运行的核数。

安装

modin使用

modin的用法与pandas相差无几,只是在导入的时候略有不同。

现在这个pd就拥有与pandas一样的功能

读取速度

说了这么多了,我们先看看pandas导入test.csv文件(107M)的速度。

pandas导入107M的test.csv耗时1.78s

modin只用了0.75s,加快了2.1倍。

运算速度

pd.concat是用来连接多个dataframe的操作函数,当我们的df很大时,pd.concat就会变慢。我们在这里实验一下pandas和modin各自的速度

同样的pd.concat操作,modin比pandas快了14倍。我又做了几个对比,制作成表格

Modin:一行代码让pandas加速数十倍

实战技巧

modin目前仍然正在发展中,并不是所有的pandas的函数都能加速。如果加速遇到报错,说明这个操作modin不支持。

默认modin会调用电脑全部的cpu,如果不想全部调用,可以使用ray来限制cpu使用数。

如果待操作的数据文件远大于电脑内存RAM,可以设置

近期文章

精选课程 | Python数据分析实战(学术)

2020年B站跨年晚会弹幕内容分析

综述:文本分析在市场营销研究中的应用

Lazy Prices公司年报内容变动碰上股价偷懒

使用pandas做数据可视化

用statsmodels库做计量分析

YelpDaset: 酒店管理类数据集10+G

NRC词语情绪词典和词语色彩词典

Loughran&McDonald金融文本情感分析库

股评师分析报告文本情感分析预测股价

使用分析师报告中含有的情感信息预测上市公司股价变动

【公开视频课】Python语法快速入门

【公开视频课】Python爬虫快速入门

一行pandas代码生成哑变量

使用Python读取图片中的文本数据

代码不到40行的超燃动态 排序

jupyter notebook代码获取方式,公众号后台回复关键词“ 20200114 ” 


以上所述就是小编给大家介绍的《Modin:一行代码让pandas加速数十倍》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

微创新

微创新

德鲁•博迪、雅各布•戈登堡 / 钟莉婷 / 中信出版社 / 2014-4-5 / 42.00

好产品不一定要颠覆,微小改进就能让用户尖叫! 引爆创新领域的全新方法论 互联网时代行之有效的5大创新策略 创业者、产品经理必读的创新行动指南 《怪诞行为学》作者 丹•艾瑞里 《影响力》作者 罗伯特•西奥迪尼 全球50位最具影响力的商业思想家之一丹尼尔•平克 周鸿祎、黎万强、罗振宇、牛文文、张鹏 联袂重磅推荐 为什么iPod可以在众多mp3产品中......一起来看看 《微创新》 这本书的介绍吧!

JS 压缩/解压工具
JS 压缩/解压工具

在线压缩/解压 JS 代码

Markdown 在线编辑器
Markdown 在线编辑器

Markdown 在线编辑器

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具