牛逼中子的一家

栏目: R语言 · 发布时间: 7年前

内容简介:牛逼中子的一家

​你猜下图中这个带胡子的帅锅是谁?如果你仔细观察,他耳朵上还打了耳钉。

牛逼中子的一家

你一定不会想到他是一个学霸,而且是一个超强的学霸。他就是 Hadley Wickham ,RStudio 的首席科学家以及 美国莱斯大学( Rice University ) 统计系的助理教授。

你可能会说,不就是一个数据科学家嘛,有什么了不起的。

可以说,他就是数据分析R语言的活雷锋,为了方便大家容易上手做数据分析,他可是开发了一堆的包,著名图形可视化软件包 ggplot2 的开发者,以及其他许多被广泛使用的软件包的作者,代表作品如 dplyr、reshape2 等。

牛逼中子的一家

我上面说的包,可不是下面你老婆要买的包包:

牛逼中子的一家

那什么是数据分析中的包呢?

首先,R是一种为数据分析而设计的编程语言。R包是用于简化诸如整合和绘制数据等常见任务代码的编程工具,为了提高数据分析效率而设计的工具。

举个具体的例子,在没有用他开发的包时,我在数据里找一条数据老费劲了,但是用了他开发的dplyr包以后,直接一行代码就搞定了。因为他开发的包太好用了,就连Google,Facebook、Twitter等这些科技巨头都在用他的包。

那么就奇怪了,为什么他这么厉害呢?难道是个天才。

还别说,他就是个天才。你看下面这位有加州大学伯克利分校的统计学博士学位的女士。

牛逼中子的一家

这可不是他的老婆,而是他的姐姐。就连他的父亲 Brian Wickham 也是名统计专家,他父亲是康奈尔大学获得动物繁殖专业的博士,该学科大量使用统计学。

你看人家一家子都是统计学高手,我深深的相信他这么牛逼的知识大脑,很大程度是遗传自他爹。就好比,王思聪遗传了他爹的财富一样。

牛逼中子的一家

为啥说他是个天才呢?

在他15岁的第一份工作中,就开发了一个微软Access数据库。至今微软都在用这个数据库。

他第一次接触R语言是在 新西兰 奥克兰大学 攻读统计学本科学位时。 他将R描述为“一种理解数据的程序语言”

在读博士期间,他就开始开发R工具包。他说:

编写一些帮助人们解决问题的代码,然后编写代码文档来帮助人们理解这玩意该怎么用,这件事情太酷了。

在2005年,他发布了reshape工具包,这是他一连串“网红”工具包的开始。自发布以来,这个 工具 包已经被下载了几十万次。

这个reshape包是干什么用的呢?

reshape让数据的聚合和操纵变得不那么“枯燥和烦人”。对于非 程序员 而言,简化数据变形过程可能不是什么事儿,但是对于数据科学家和统计学家而言,这往往是他们工作中最费时的事儿。

在reshape和其他几个工具包大受欢迎的同时,他注意到:

学校里教的东西和人们理解数据真正需要的东西根本不沾边。

这真是说出了我的心里话,学校的老师就会照着课本教一些公式,却从来没有告诉我们这些雪的知识如何和日常生活结合起来,更别说解决真实的问题了。

与那些专注于高深莫测理论的统计学家不同,他致力于让普通大众都能够更容易地上手数据分析。他说:

肯定会有象牙塔的统计学家否认我所做的工作是统计学,但是我认为他们错了。我所做的工作正是回归到统计学的根源。

存在数据科学这一学科这件事本身就说明正统统计学存在巨大缺陷。对我而言,这涉及到什么是统计:统计即是通过建模和可视化从数据中获得洞见。数据清洗和操纵是个脏活累活,而正统统计学拍拍屁股说这不归我们管。

由此,他开发了ggplot2这个图形化工具包。迄今为止,该工具包已经被下载了几百万次。ggplot2的巨大成功也促使他离开学术界,去最受欢迎的集成开发工具Rstudio担任首席科学家。

牛逼中子的一家

正是有了这个绘图包,让数据分析师在使用R中绘图变的非常简单和好玩。除了开发ggplot2包外,他也设计了一些其他广受欢迎的包来为数据科学家解决其他的重要问题。例如下面的包:

想用字(字符串)的形式很容易地操纵数据么?stringr包帮你解决。

每当他在R聚会或是统计数据发布会上,他就会变成一个摇滚明星。他是一个非常乐于给那些喜欢摆弄数据的人提供力量和支持。他说:

通过数据从根本上了解世界真的是一件非常,非常酷的事情。让我感到兴奋的分析不是谷歌爬取了1 TB的网络广告数据来优化收入, 而是那些有着绝对热情的生物学家,现在他们可以使用,并理解R了。

牛逼中子的一家

这哥们还说过一句话“通过数据从根本上了解世界真的是一件非常,非常酷的事情。”

数据中不仅藏着需要分析出来的信息,还藏着巨大的红利。我个人是每天喜欢看各种新闻报道中的数字,通过反复观察数字,可以发现其中的机会。

有时候,你还真的需要有意识去培养下数据思维,不然一生错过很多次信息机会,也是挺遗憾的。

牛逼中子的一家


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

十亿美金的教训

十亿美金的教训

林军 唐宏梅 / 浙江大学出版社 / 2011-5 / 39.00元

《十亿美金的教训》内容简介:创业者个人能力欠缺、团队涣散、经营方向把握不当、资金动用失措以及时局不利……这其中有哪一个细节被忽视,都可能是失败的导火索! 国内二十年互联网风云,有人成功,有人失败。两种结果,不同方向,却往往只是一线之隔。他们留给我们怎样的教训与启示?后来者要怎样才能跳出失败之殇? 《十亿美金的教训》选取了互联网十个经典的失败案例,并深层解读这些互联网企业与创业者们从成功......一起来看看 《十亿美金的教训》 这本书的介绍吧!

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试