根据KDD调查,较少的受访者(按比例计算)在2017年仅使用R而不是2018年。同时,更多的受访者(按比例)在2017年仅使用 Python 而不是2016年。
让我们以此为借口快速了解当我们在两个系统中尝试任务时会发生什么。
对于我们的任务,我们选择了在仅有8GB内存的机器上直接读取50,000,000行50列数据集到内存中是痛苦的操作。
在Python中,Pandas包大约需要6分钟来读取数据,然后就可以准备工作了。
在R中,当内存不足时,utils::read.csv()和readr::read_csv()失败。因此,如果您对R的看法是“基本只有R”,或“基本只有R + tidyverse”,或“基本只有tidyverse”,读取这个文件是一项“艰巨的任务”。
按照上面的狭隘观点,如果想要完成工作,除了使用Python之外别无选择。
或者,我们可以记住data.table。而data.table显然不是tidyverse数据的一部分。data.table在R领域已经有12年的历史了。它可以读取数据,并且可以在不到一分钟的时间内以R语言工作。
总之,在紧急情况下完成任务:学习Python或学习data.table。而且,在我看来,“tidyverse first teaching”(通常是“tidyverse only teaching”的代码)从长远来看可能并不适合R社区。
作者: 原文链接: https://www.r-bloggers.com/running-the-same-task-in-python-and-r/
版权声明:作者保留权利,严禁修改,转载请注明原文链接。
数据人网是数据人学习、交流和分享的平台http://shujuren.org 。专注于从数据中学习到有用知识。 平台的理念:人人投稿,知识共享;人人分析,洞见驱动;智慧聚合,普惠人人。 您在数据人网平台,可以1)学习数据知识;2)创建数据博客;3)认识数据朋友;4)寻找数据工作;5)找到其它与数据相关的干货。 我们努力坚持做原创,聚合和分享优质的省时的数据知识! 我们都是数据人,数据是有价值的,坚定不移地实现从数据到商业价值的转换!
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 了解js运行机制——微任务与宏任务
- vSphere Bitfusion运行TensorFlow深度学习任务
- Django APScheduler + uwsgi 定时任务重复运行
- Linux 后台运行任务 nohup 结合 & 用法以及如何精准查找进程并 kill 后台任务实践
- 用安装在 Docker 中的 jenkins 运行 Docker 任务
- Java实现终止线程池中正在运行的定时任务
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。