内容简介:当我与想要开始学习数据科学的人交谈时出现的最大问题之一是:我不知道从哪里开始!最近,我认为当你开始使用数据科学时,R是最好的编程语言。
当我与想要开始学习数据科学的人交谈时出现的最大问题之一是:
我不知道从哪里开始!
最近,我认为当你开始使用数据科学时,R是最好的编程语言。
虽然这有助于您选择编程语言,但它仍然没有告诉您要关注哪些技能。
就像选择编程语言一样,选择开始的技能可能会让人不知所措。
同样,我直接跟你说: 先学习数据可视化,然后学习数据操作 。
数据可视化对于发现洞察力至关重要
我建议先学习数据可视化有几个原因,但从本质上讲,我的理由是我希望您能快速提高生产率。你的时间是你最宝贵的资源,所以你需要养成专注于“大胜利”的习惯。专注于学习高投资回报技巧(高投资回报率技巧)。
对于大多数人来说,开始时的最高ROI技巧是数据可视化。
要理解为什么,你需要考虑目标。作为一名数据科学家,你的工作就是在数据中寻找真知灼见。
客户想要的洞察力。
(如果你需要这方面的证据,只要看看数据科学职位的招聘信息就可以了。“洞察力”一词一遍又一遍地出现。
最终,洞察力就是要以不同的方式看待问题,利用数据来发现问题和潜在的解决方案。
可视化是视觉化的工具。
所以,客户需要洞察力,洞察力是关于视觉的,而视觉化是帮助你看东西的工具。
数据可视化对于数据工作流的若干部分非常有用
寻找见解是一个多步骤的过程,数据可视化对于数据科学工作流程的几乎每个步骤都非常有用。
寻找见解对于初学者,您需要亲自了解这些见解。
当您开始时,数据可视化可能是用于查找数据洞察力的最高ROI方法(当您将其与数据操作结合使用时,它会变得更加强大,我将在稍后介绍)。
正如我上面提到的,数据可视化技术对于探索数据以获取见解至关重要。可视化可帮助您作为分析师查看数据中的重要特征。
沟通见解可视化对于传达您的见解也至关重要。
当你走进与行政人员或商业伙伴的会面时,十分之九是你将不得不向他们展示。你不能谈论方程式或算法。您需要使用正确的数据可视化来显示它们。
你几乎肯定听过“一张图片胜千言万语”这句话。这绝对是真的。通过视觉交流(通过适当的可视化技术)将扩大您的能力,为您的客户传达重要的问题和机会。
在大多数情况下,替代方案是文本。您是否见过幻灯片演示文稿只是一个“文本墙”?只是很多单词?众所周知,这些都是无效的。
虽然演示文稿设计超出了本博文的范围,但您需要了解一旦找到客户需要的见解,您需要展示它们。你需要说服他们。他们需要看到你见过的见解。向业务合作伙伴和高管展示这些见解的最佳方式之一是通过数据可视化。
最终,您希望能够与行政人员或业务合作伙伴会面,指向数据可视化并说“在那里。在那里。那是你的问题。你看到图表上的红色区域了吗?这是你需要解决的问题。“
如果您了解正确的可视化技术,那么以这种方式简洁地进行沟通是绝对可能的。如果你能做到这一点,你将对你的客户和合作伙伴非常有价值。
机器学习和模型构建但在某些阶段,纯数据可视化并不是工作的最佳工具。随着数据集变得越来越大,您尝试回答的问题变得越来越复杂,纯数据可视化可能无法正常工作。您可能需要使用更高级的工具,例如机器学习。
问题是,在使用这些更高级的技术的过程中,您可能仍需要使用数据可视化。
在构建之前,通常您仍需要使用数据可视化来探索数据集。您需要可视化数据以查看变量的分布情况,并帮助您选择最佳技术。
之后,当您获得这些高级技术的结果时,您可能需要数据可视化来解释它们。我们需要探索使用这些更先进的技术生成的结果,以便理解。
换句话说,机器学习技术(和其他高级技术)的结果可能非常难以理解。数据可视化可帮助您了解这些结果。
最后,由于这些高级技术(及其结果)可能有些难以解释,因此使用数据可视化技术向业务合作伙伴演示和解释结果是很常见的。
这是我建议初学者晚点学习机器学习的原因之一。在成功使用这些更高级的技术之前,您几乎肯定需要了解数据可视化。
为什么你接下来应该学习数据操作
当您学习数据可视化时,最终您将遇到瓶颈。
您的数据格式错误,需要更多数据,或者您只需要“深入挖掘”已有的数据。
此时,您应该学习一些基本的数据操作。
这将允许您对数据进行子集化,聚合并以其他方式转换数据,以帮助您找到更多的见解(您还可以使用数据操作技术合并新数据,尽管这稍微复杂一些)。
在寻找见解方面,您可以将数据可视化和数据操作相结合,以执行更复杂的数据探索。
数据探索:使用ggplot + dplyr发现见解
有许多可能的发现路径,但有些路径比其他路径更安全,更快。当熟练的求职者冒险进入数据探索的世界时,他们倾向于遵循一条特定的道路......以咒语的形式表达: 首先概述,缩放和过滤,然后按需细节。 ......这是发现的必经之路!
- Stephen Few
最终,我建议先学习数据可视化,然后再学习数据操作,这是因为你可以将它们结合起来。将数据可视化和数据操作结合起来并将其与正确的流程结合使用时,您可以快速找到数据中的见解。
这是绝对关键的技能。
在开始学习机器学习之前。在深入了解高级技术之前。在学习“大数据”工具之前,您绝对需要学习数据探索和分析。
对于大多数初学数据科学专业的学生来说,我相信数据探索的能力是第一个里程碑。
事实证明,这是我建议初学者学习R的最大原因之一。
R的两个工具ggplot2和dplyr非常适合执行数据探索。它们是我开始时希望拥有的工具。
特别是,您可以使用'%>%'运算符组合它们来进行快速数据探索。
当您将ggplot2与dplyr结合使用时,您可以创建数据的子集和聚合,并立即将dplyr操作的输出“管道”到ggplot中。
这使您可以轻松实现Ben Shneiderman的“概述优先,缩放和过滤,按需细节”的口号。
如上所述,您可以使用可视化和数据操作来“放大”并以各种方式检查数据集。
正如Stephen Few所指出的那样,“视觉路径”可能是发现的最可靠途径。
让我重新说一下:当你开始时,视觉探索是发现见解的最快,最可靠的途径。您需要首先掌握数据探索。
我希望你立刻高效工作
我推荐的工具(ggplot2和dplyr)有什么好处,你可以在几周内学习语法(如果你勤奋,可能会更快)。
ggplot2和dplyr的语法相对简单。 一旦您了解了语法,创建核心可视化(如散点图)或稍高级的图表(如气泡图)变得非常容易。 此外,一旦你了解了语法,即使看起来很复杂的视觉化也会变得非常容易构建。
一旦学习了语法,您就能够创建美观,富有洞察力的数据可视化。
如果你努力工作并掌握ggplot2和dplyr - 如果你先掌握基础数据探索 - 那么你将掌握如何找到数据见解。
原文链接: https://www.r-bloggers.com/why-you-should-start-by-learning-data-visualization-and-manipulation/
版权声明:作者保留权利,严禁修改,转载请注明原文链接。
数据人网是数据人学习、交流和分享的平台http://shujuren.org 。专注于从数据中学习到有用知识。 平台的理念:人人投稿,知识共享;人人分析,洞见驱动;智慧聚合,普惠人人。 您在数据人网平台,可以1)学习数据知识;2)创建数据博客;3)认识数据朋友;4)寻找数据工作;5)找到其它与数据相关的干货。 我们努力坚持做原创,聚合和分享优质的省时的数据知识! 我们都是数据人,数据是有价值的,坚定不移地实现从数据到商业价值的转换!
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- R中你应该学习7种可视化
- 选择可视化分析工具应该从哪些角度考虑
- 顶会论文应不应该提交代码?应该,但不能强制
- 单元测试 – 我应该对不应该在函数中传递的数据(无效输入)进行单元测试吗?
- 智能合约事件应该这么用
- 研发职位到底应该怎么设置?
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。