内容简介:也许你想在数据研究领域工作,你对数据工程师和数据科学家之间的区别还不是很清楚,甚至很多人可能认为这是同一件事。如果你真的这么认为,那是个大错误!这两个位置之间的差别正在增大。如果你不能深入理解这些异同,那么在未来绝对不会有几声雷鸣在等你。这篇文章必须读!数据工程师在技术上工作。他们负责数据系统架构的设计和维护,包括从基础设施分析到数据仓库的许多概念。数据工程师需要对常用的脚本语言有一个透彻的理解,并通过使用和改进数据分析系统,稳步提高数据的质量和数量。他们还负责创建建模、挖掘、验证和获取数据的步骤和过程。预
也许你想在数据研究领域工作,你对数据工程师和数据科学家之间的区别还不是很清楚,甚至很多人可能认为这是同一件事。如果你真的这么认为,那是个大错误!这两个位置之间的差别正在增大。如果你不能深入理解这些异同,那么在未来绝对不会有几声雷鸣在等你。这篇文章必须读!
数据工程师在技术上工作。他们负责数据系统架构的设计和维护,包括从基础设施分析到数据仓库的许多概念。数据工程师需要对常用的脚本语言有一个透彻的理解,并通过使用和改进数据分析系统,稳步提高数据的质量和数量。他们还负责创建建模、挖掘、验证和获取数据的步骤和过程。
预计行业对熟练数据工程师的需求将迅速增长。在现代世界,企业和组织需要一个可靠的数据体系结构来获取和存储数据。当企业发展到需要使用数据科学的程度时,它需要数据工程师。因此,迫切需要数据工程师。
一些企业认为数据工程的技能和经验可以在项目中学习和积累。Umbel的高级主管Kevin Safford认为这通常是错误的。他补充道:“如果你真的不努力学习来实际构建数据管道、数据管理系统、数据分析,并编写所有中间代码,以使数据可用、可访问和正确,并确保分析的正确性——如果你没有这方面的经验,你可能会认为这些东西会慢慢学到。我见过很多人这样认为。他们大多数都错了。它们都是一样的。”
数据工程师与数据科学家
数据工程师和数据科学家的技能和责任经常是重叠的,但这两个职位之间的差异正在增加。
数据科学家专注于将大数据转化为商业智能,而数据工程师正在为数据生成构建更多的数据架构和基础设施。数据科学家的工作环境和基础设施需要数据工程师来创建。
与构建和管理基础设施相比,数据科学家更感兴趣的是与基础设施的交互。他们的职责还包括将原始数据翻译成有用的、可理解的和可执行的信息。数据科学家研究大数据,而数据工程师研究数据基础设施和数据库。
很多小伙伴,对大数据的概念都是模糊不清的,大数据是什么,能做什么,学的时候,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习群:775908246,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系。
数据库
数据库支持所有形式的报告和分析。数据工程师的目标是提供可靠、完整和最新的数据,以支持报告和分析。一个坚实的数据库将使企业受益匪浅,并使他们的行动和决策更有效率。其好处包括:
加强组织交流与合作
一站式购买数据
记录的单一版本
支持企业达成信息理解共识
如果没有一个有效的数据库,企业组织的安全风险就会增加,内部组织的效率也会降低。薄弱的数据库可以为一个问题生成多个答案,但不足以支持智能业务决策。
大数据工程技能
数据工程师需要对数据库管理有很好的理解,包括对结构化查询语言(SQL)的深入理解。他们需要构建基础设施、 工具 、框架和服务。有人认为数据工程更多的是软件工程和应用开发,而不是数据科学。其他有用的技能包括:
Apache Hadoop、Hive、MapReduce和HBase体验。
机器学习(ML)是数据科学家的研究热点,但它的一些理解对数据工程也很重要。ML与大数据密切相关。ML简化和合理化了大型数据的处理。
代码知识绝对是一个优势。熟悉C/C++、 Java 、 Python 、 Perl 、Golang或其他语言可能是有用的。掌握 Linux 、Unix和Solaris也很有帮助,因为它们是操作系统功能和硬件的根源。
对于数据工程师来说,ETL(数据提取、转换和加载)经验是必不可少的。ETL是一个从源系统中提取数据并将其存储在数据仓库中的数据仓库构建过程。熟悉ETL工具(如Segment或Oracle Warehouse Builder)和数据存储解决方案(如Panoply或Redship)非常有用。
ETL(数据提取、转换和加载)
在计算机领域,ETL用于数据库和仓库建设。数据提取、转换和加载始于20世纪70年代,数据提取是指从同构和异构数据源中提取数据。数据转换是指将数据转换成适当的结构或形式以便于存储(稍后研究和分析)。数据加载是指将数据下载并传输到数据集市、数据存储或数据仓库的过程。
一个设计良好的ETL系统可以从源系统中提取数据,并确保数据的一致性和质量标准。它还可以以预览演示的形式传输数据,允许开发人员开发应用程序,而最终用户决定其价值。
传统上,ETL系统集成来自应用程序、不同供应商和计算机硬件的数据。包含原始数据的独立系统通常由不同的人操作和控制。例如,工资核算系统的经理可以将销售和采购数据结合起来。
数据仓库
数据仓库用于存储、报告和分析数据。对于现代商业智能来说,其发展是非常重要的。数据仓库集中存储来自一个或多个源的集成数据,同时存储当前和历史数据,并可用于开发分析报告。
如果没有数据仓库(或其更新的结构副本数据池),大型数据和任何与数据科学相关的处理都可能变得非常昂贵或难以扩展。如果没有设计良好的数据仓库,分析师在研究同一个问题时很容易得到不同的结果。或无意中造成成品数据库(无数据仓库)研究的延迟或中断。
成为数据工程师
一般来说,成为一名数据工程师需要信息技术或计算机科学以及其他相关培训的学位。随着每个工作环境的要求越来越个性化,数据工程的教学也越来越灵活。
你的学位和专业培训很重要,但还不够。其他证书也很有价值,包括:
CCP数据工程师认证考试(Cloudera认证数据工程师证书)-提供ETL工具和实证分析证明。
谷歌证书-证明熟悉基本的数据工程技能。
IBM认证数据工程师(大数据)-传达大数据应用的经验。
辅助认证也是可行的。例如,MCSE(Microsoft认证解决方案专家)包含许多主题,包括特定主题的附加身份验证,包括MCSE:数据管理和分析;MCSA(Microsoft认证系统管理员):商务智能报告;以及MCSA:Microsoft云平台。此外,一些数据行业活动还可以提供优秀的培训和教学资源(同时提供良好的互联网接入)。网上课程也很多,可以根据具体情况提供有效的培训。
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Probability and Computing: Randomization and Probabilistic Techn
Michael Mitzenmacher、Eli Upfal / Cambridge University Press / 2017-7-3 / USD 62.23
Greatly expanded, this new edition requires only an elementary background in discrete mathematics and offers a comprehensive introduction to the role of randomization and probabilistic techniques in m......一起来看看 《Probability and Computing: Randomization and Probabilistic Techn》 这本书的介绍吧!