不知道这7个典型数据项目步骤,都不

栏目: 数据库 · 发布时间: 7年前

内容简介:不知道这7个典型数据项目步骤,都不

数据科学是一门跨学科的科学,它可以从结构化或非结构化的各种形式的数据中提取知识和见解。随着数据科学 工具 自动化程度的提高,无论是在接地气的零售领域,还是在高大上的基因领域,数据科学都在被用来进行知识发现和预测分析。同时,随着传感器、物联网的发展,未来几年数据科学对社会的推动有望加速。

不知道这7个典型数据项目步骤,都不

那么,数据科学的典型步骤是什么样的?企业如何最大化其数据资产价值呢?

1.了解目标问题

在进行数据科学的具体操作之前,首先要充分了解你想要解决的问题,征求相关领域专家的帮助,包括解释业务问题、提供数据集、确定项目目标等。很多数据科学项目失败的原因就是一开始就没有非常明确的目标,导致最终效果不理想。为了了解问题,你可能要与市场营销、财务、运营、IT甚至人力资源部门的同事进行交流,而且会收到各方不同的意见或建议,尽管有时候这会让人崩溃,但是对于数据项目的健康推进来说,这个过程还是不可或缺的。

开始数据项目的正确方法是找出业务最短板,然后顺着这个问题抽丝剥茧,分析数据解决问题。有时候业务问题与数据项目之间会有非常明确的对应关系,但是有时候业务问题和数据项目之间的联系并不那么明显,需要分多个步骤来将业务问题与数据项目逐一映射起来。数据项目的发起和最终驱动力,往往都是来自业务部门需求(例如财务、销售、运营等),因此,多与这些部门的同事交流,会让之后的数据工作事半功倍。

2.找到合适数据

有些数据可能是来自内部业务,例如电商应用的数据,但是如今随着社交网络的发展,数据项目的数据已经不能局限于企业本身的数据,必须包含来自各种外部来源的数据,同时也包括非结构化数据来源、如社交媒体甚至电子邮件。物联网传感器是另一个很大的数据来源。因此,数据采集可能需要一定的创造力,在领域专家的帮助下更多地收集有用的数据。

3.数据清洗转换

在项目早期,数据清洗转换非常重要,以便将原始数据清理并转换为更适合机器学习的形式。鉴于一些企业数据的状态比较差,此步骤可能需要花费相当长的时间和精力,通常可占用高达75%的数据项目的时间和成本。在数据转换的过程中,记录所有数据转换日志很重要,因为转化过程会成为数据重新利用时的参考。

4.探索性数据分析

探索性数据分析是指使用统计方法和数据可视化来尝试发现数据中有趣的特征和趋势。有时,只需要基于原始数据(或原始数据的样本)的简单绘图就可以显示出非常重要的趋势或关系,这将有利于指导数据项目的方向。探索性数据分析可以在花费较少的时间和成本的情况下确定你的项目应该采用的特定机器学习算法和使用的最佳特征变量。这一步骤可能需要与业务专家探讨探索性数据分析过程中显示出来的特征,以免发生遗漏,错过重要的特征和线索。

5.选择合适算法

确定基本方向后就要选择适合于解决问题的机器学习算法,将数据分成训练数据、交叉验证数据和测试集。在这一阶段,需要对很多机器学习类型进行测试,是做定量预测、定性分类,还是只是使用聚类技术进行探索?在测试之后,你就能更容易地选出最适合用于特定应用的算法,如果之前有过此类研究,则在选择算法的时候会相对容易很多。

6.验证模型功效

没有一种算法能够在处理所有数据集时的各项指标都优于其他算法。在特定的数据集上,一种特定的算法可能最有效,而另一种算法可能在其他数据集上表现更好,选择最佳算法可能是实践中数据项目最具挑战性的部分之一。因此,模型的效率评估对于项目的成功与否至关重要。需要量化给定观测值的预测响应值在多大程度上接近该观测值的真实响应值。还需要确定模型在处理不同的数据集的误差。

7.讲述数据故事

数据项目的最终结果可以通过精心设计的可视化作品来获得最佳的展示效果。能够直观、准确传达信息的可视化作品创建起来难度很大,可能需要多次尝试才能成功。事实上,建立有效的可视化作品需要一定的创造力和艺术修养。好消息是网上有很多好的可视化的案例可以参考。

完成数据科学过程后,就可以将结果传达给管理层了。为了达到更好的效果,需要一个会讲“数据故事”的人,这个人可以根据数据以更生动的形式将数据作品要表达的意思传达出去。大多数管理人员没有数据分析或统计数据的背景,而数据科学家的工作就是将数据全部归结为业务人员可以理解的形式,因此,讲述数据的故事是数据科学的一个组成部分。

结论

在完成这些步骤之后,数据项目并没有结束,重要的是不断重复这个过程,get到查看不同特征变量的预测能力,评估不同的模型,评估预测精度的新能力。数据项目可能并非让人一直有成就感,因为数据科学家的真正目的是不断地证明自己或企业的一次又一次的错误。数据科学是定期寻找现有问题的新答案的过程,当你找到那个新答案时,它给你带来的成就感也是非常巨大的。

不知道这7个典型数据项目步骤,都不

以上所述就是小编给大家介绍的《不知道这7个典型数据项目步骤,都不》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

长尾理论

长尾理论

[美]克里斯•安德森 (Chris Anderson) / 乔江涛、石晓燕 / 中信出版社 / 2012 / 68.00元

网络经济正如火如荼地发展着,长尾理论无疑成为当代商务人士最为关注的焦点之一。不论是关于长尾理论的溢美还是论战,都代表了其备受关注的程度。 《长尾理论》是克里斯•安德森对这些争论的最明确的回答。在书中,他详细阐释了长尾的精华所在,指出商业和文化的未来不在于传统需求曲线上那个代表“畅销商品”的头部,而是那条代表“冷门商品”的经常被人遗忘的长尾。他还揭示了长尾现象是如何从工业资本主义原动力——规模......一起来看看 《长尾理论》 这本书的介绍吧!

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具