数据科学管道初学者指南

栏目: 数据库 · 发布时间: 7年前

内容简介:一端是带入口的管道,另一端是出口。 管道上还标有五个不同的字母:“O.S.E.M.N.”“信不信由你,你和数据没什么不同。 把自己置身于数据之中,你会明白为什么。“

一端是带入口的管道,另一端是出口。 管道上还标有五个不同的字母:“O.S.E.M.N.”

数据科学管道初学者指南

“信不信由你,你和数据没什么不同。 把自己置身于数据之中,你会明白为什么。“

曾几何时,有一个名叫Data的男孩。 在他的一生中, 他总是试图了解他的目的是什么。 我有什么价值观? 我可以对这个世界产生什么影响? 数据来自哪里? 看到你和数据之间的任何相似之处 ? 这些问题始终在他的脑海中,幸运的是,凭借纯粹的运气,Data终于遇到了一个解决方案,并经历了一次巨大的变革。

这一切都始于数据沿着行走,当他遇到一个奇怪但有趣的管道时。 一端是带入口的管道,另一端是出口。 管道上还标有五个不同的字母:“O.S.E.M.N.”。 像他一样好奇,Data决定进入管道。 长话短说...... 来了数据和出来的洞察力

数据科学管道初学者指南

说明:本文将简要介绍对典型数据科学管道中的预期的高级概述。 从构建业务问题到创建可操作的见解。 不要担心这将是一个容易阅读!

数据科学是OSEMN

你真棒。 我真棒。 数据科学是OSEMN。 您可能会问为什么数据科学“很棒”? 好吧,作为有抱负的数据科学家,你有机会磨练你的巫师和侦探的力量。 通过巫师,我的意思是拥有自动预测事物的能力! 通过侦探,它能够找到数据中未知的模式和趋势!

数据科学管道初学者指南

了解数据科学管道如何工作的典型工作流程是迈向业务理解和解决问题的关键步骤。 如果您对数据科学管道的工作原理感到恐惧,请不要再说了。 这篇文章适合你! 我从Hilary Mason和Chris Wiggins那里找到了一个非常简单的首字母缩略词,您可以在整个数据科学管道中使用它。 那是O.S.E.M.N.

OSEMN管道

O - 获取我们的数据 S - 清洗我们的数据 E - 探索/可视化我们的数据将使我们能够找到模式和趋势 M - 对我们的数据建模将为我们提供作为向导的预测能力 N - 解释我们的数据

业务问题

因此,在我们开始OSEMN管道之前,我们必须考虑的最关键和最重要的步骤是了解我们试图解决的问题。 让我们再说一遍。 在我们开始使用“数据科学”做任何事情之前,我们必须首先考虑我们试图解决的问题。 如果你想解决一个小问题,那么最多你会得到一个小解决方案。 如果您有一个大问题要解决,那么您将有可能获得一个大的解决方案。

问你自己:

  • 我们如何将数据转换成美元?
  • 我想对这些数据产生什么影响?
  • 我们的模型带来了什么商业价值?
  • 什么会为我们节省很多钱?
  • 如何才能使我们的业务更有效地运营?

“把钱拿出来!”

数据科学管道初学者指南

了解这一基本概念将带您走得更远,并带领您迈向成为“数据科学家”的更大步骤(我相信...对不起我不是一个!)但是,这仍然是您必须迈出的非常重要的一步 做! 无论您的模型预测得多好,无论您获得多少数据,无论您的OSEMN管道如何 ......您的解决方案或可操作的洞察力只会与您为自己设置的问题一样好。

“好的数据科学更多地是关于你对数据提出的问题,而不是数据处理和分析” - 莱利纽曼

获取您的数据

在没有任何数据的情况下,您无法做任何数据科学家的事情。 根据经验,在获取数据时必须考虑一些事项。 您必须识别所有可用数据集(可以来自Internet或外部/内部数据库)。 您必须将数据提取为可用格式(.csv,json,xml等)。

数据科学管道初学者指南

所需技能:

  • 数据库管理:MySQL,PostgresSQL,MongoDB
  • 查询关系数据库
  • 检索非结构化数据:文本,视频,音频文件,文档
  • 分布式存储:Hadoops,Apache Spark / Flink

擦洗/清洁您的数据

清理第5列! 管道的这个阶段应该需要最多的时间和精力。 因为您的机器学习模型的结果和输出仅与您投入的结果和输出一样好。 基本上,垃圾进垃圾出。

数据科学管道初学者指南

目的:

  • 检查数据:了解您正在使用的每个特征,识别错误,缺失值和损坏记录
  • 清理数据:丢弃,替换和/或填充缺失的值/错误

所需技能:

  • 脚本语言:Python,R,SAS
  • 数据处理工具:Python Pandas,R
  • 分布式处理:Hadoop,Map Reduce / Spark

“准备好的人将他的战斗打了一半” - 米格尔·德塞万提斯

探索(探索性数据分析)

现在,在探索阶段,我们试图了解数据的模式和值。 我们将使用不同类型的可视化和统计测试来支持我们的发现。 在这里,我们将能够通过各种图表和分析得出我们数据背后隐藏的含义。 出去探索!

“港口的船舶是安全的 - 但这不是船舶的建造目的。” - 约翰A.谢德。

数据科学管道初学者指南

目的:

  • 通过可视化和图表发现数据中的模式
  • 通过使用统计来识别和测试重要变量来提取特征

所需技能:

  • Python:Numpy,Matplotlib,Pandas,Scipy
  • R:GGplot2,Dplyr
  • 推论统计
  • 实验设计
  • 数据可视化

提示:进行分析时,您的“蜘蛛感觉”会刺痛。 有意识发现奇怪的模式或趋势。 一直在寻找有趣的发现!

设计考虑:大多数时候人们直接进入视觉“让它完成”。 这都是关于最终用户的解释。 专注于您的受众

建模(机器学习)

有趣的来了。 模型是统计意义上的一般规则。将机器学习模型视为 工具 箱中的工具。 您将可以访问许多算法并使用它们来实现不同的业务目标。 您使用的特征越多,您的预测能力就越好。 清理数据并发现最重要的特征后,将模型用作预测工具只会增强您的业务决策。

Predictive Analytics正在成为改变游戏规则的方式。 而不是向后看以分析“发生了什么?”预测分析帮助管理人员回答“下一步是什么?”和“我们应该怎么做?”(福布斯杂志,2010年4月1日)

数据科学管道初学者指南

预测能力示例:在沃尔玛的供应链中可以看到一个很好的例子。 沃尔玛能够预测,他们会在飓风季节期间在他们的一家商店销售他们所有的草莓流行挞。 通过数据挖掘,他们的历史数据显示,在飓风事件发生之前销售的最受欢迎的项目是Pop-tarts。 听起来很疯狂,这是一个真实的故事,并提出了不低估预测分析能力的观点。

目的:

  • 深入分析:创建预测模型/算法
  • 评估和优化模型

所需技能:

  • 机器学习:监督/非监督算法
  • 评估方法
  • 机器学习库:Python(Sci-kit Learn)/ R(CARET)
  • 线性代数和多元微积分

“模型是数学中的意见” - 凯茜奥尼尔

解释(讲数据故事)

这是故事时间!最重要的一步是了解并学习如何通过沟通解释您的发现。讲述故事是关键,不要低估它。它是关于与人交往,说服他们,并帮助他们。理解您的受众并与他们联系的艺术是数据叙事的最佳部分之一。

“我相信讲故事的力量。故事让我们的心灵开启了一个新的地方,这开启了我们的思想,往往导致行动“ - 梅琳达盖茨

情感在数据叙事中起着重要作用。人们不会神奇地理解你的发现。产生影响的最佳方式是通过情感讲述你的故事。我们作为人类自然受到情绪的影响。如果你可以利用你的观众的情绪,那么你的朋友,你是可以控制的。当您呈现数据时,请记住心理学的力量。理解您的受众并与他们联系的艺术是数据叙事的最佳部分之一。

最佳实践:我强烈建议加强您的数据讲故事的一个好习惯是一遍又一遍地进行排练。如果您是父母,那么对您来说是个好消息。而不是在睡觉前向您的孩子阅读典型的Dr. Seuss书籍,请尝试使用您的数据分析结果让他们入睡!因为如果一个孩子理解你的解释,那么任何人都可以,尤其是你的老板!

数据科学管道初学者指南

“如果你无法向六岁的孩子解释,你自己就不明白。” - 爱因斯坦

目的:

  • 确定业务洞察:回归业务问题
  • 相应地可视化您的发现:保持简单和优先级驱动
  • 讲述一个清晰且可操作的故事:有效地与非技术受众沟通

所需技能:

  • 业务领域知识
  • 数据可视化工具:Tablaeu,D3.JS,Matplotlib,GGplot,Seaborn
  • 沟通:演讲和报道/写作

更新您的模型

不要担心你的故事不会在这里结束。在您的模型投入生产时,根据您接收新数据的频率,定期更新模型非常重要。您收到的数据越多,更新的频率就越高。让我们说你是亚马逊,你为客户推出了一项新功能,购买“鞋功能”。你是旧模型没有这个,现在你必须更新包含此功能的模型。如果没有,您的模型会随着时间的推移而降级,并且性能不会很好,从而使您的业务也会降级。新功能的引入将通过不同的变化或可能与其他功能的相关性来改变模型性能。

结论

综上所述,

  • 形成您的业务问题
  • 获取您的数据

获取数据,清理数据,使用可视化探索数据,使用不同的机器学习算法建模数据,通过评估解释数据以及更新模型。

请记住,我们与数据没有什么不同。我们都有这个世界存在的价值观,目的和理由。

事实上,您将面临的大多数问题都是工程问题。即使有一个伟大的机器学习上帝的所有资源,大多数影响将来自伟大的特征,而不是伟大的机器学习算法。所以,基本方法是:

  1. 确保您的管道端到端坚固
  2. 从合理的目标开始
  3. 直观地了解您的数据
  4. 确保您的管道保持稳固

希望这种方法可以赚很多钱,并且/或者让很多人在很长一段时间内感到高兴。

所以...下次有人问你什么是数据科学。告诉他们:

“数据科学是OSEMN”

我希望你们今天学到了一些东西!如果您想在本文中添加任何内容,请随时留言并不要犹豫!任何形式的反馈都非常值得赞赏。不要害怕分享这个!谢谢!

作者:Randy Lao 原文链接:https://www.kdnuggets.com/2018/05/beginners-guide-data-science-pipeline.html

版权声明:作者保留权利,严禁修改,转载请注明原文链接。

数据人网是数据人学习、交流和分享的平台http://shujuren.org 。专注于从数据中学习到有用知识。 平台的理念:人人投稿,知识共享;人人分析,洞见驱动;智慧聚合,普惠人人。 您在数据人网平台,可以1)学习数据知识;2)创建数据博客;3)认识数据朋友;4)寻找数据工作;5)找到其它与数据相关的干货。 我们努力坚持做原创,聚合和分享优质的省时的数据知识! 我们都是数据人,数据是有价值的,坚定不移地实现从数据到商业价值的转换!


以上所述就是小编给大家介绍的《数据科学管道初学者指南》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

On LISP

On LISP

Paul Graham / Prentice Hall / 09 September, 1993 / $52.00

On Lisp is a comprehensive study of advanced Lisp techniques, with bottom-up programming as the unifying theme. It gives the first complete description of macros and macro applications. The book also ......一起来看看 《On LISP》 这本书的介绍吧!

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具