内容简介:数据科学可以被概括为两个工作流:当数据科学团队较小的时候,不会面临太多的问题,所有事情都相对较好。
动机
数据科学可以被概括为两个工作流:
- 模型开发
- 模型服务
当数据科学团队较小的时候,不会面临太多的问题,所有事情都相对较好。
- 需要维护的模型较少
- 关于模型的知识在数据科学家的头脑中
- 每个人有跟踪流程的方法
但是,随着数据科学需求的增长,将面临新的问题
- 数据流的复杂度增加
- 大量的数据处理工作流
- 数据没有在标准化的流程中修改
- 管理复杂的流和定时任务变得不可管理
-
每个数据科学家有他们自己的 工具 集
- 一些喜欢tensorflow
- 一些喜欢R
- 一些喜欢Spark
- 一些喜欢所有
-
模型服务变得越来越难
- 不同的模板版本跑在不同的环境中
- 部署和回滚模型变得越来越复杂
-
问题出现很难回溯
- 数据科学家说是数据管道上的bug
- 数据工程师说是模型出了问题
- 变成了猫鼠游戏
幸运的是,许多同行都面临这些的问题有段时间了,这是一个大家都要解决的问题。
数据科学家:负责模型的开发
数据工程师:负责数据管道的开发
DevOps/DataOps/MLOps工程师:负责模型、数据管道和产品的生产化(由原型阶段部署到大规模的生产环境)
概念
因为技术功能变化了,因此基础设施也该对应的进化。
ML-OPS的两个原则:
- 重现性(Reproducibility)
- 编排
原则1:模型和数据的版本
数据科学重现性的古老问题。
解藕管道中每一步。
每一步都包含代码/配置,以及特定的数据数据输入和输出。
每一步的抽象:
- 数据输入
$ cat data-input.csv > Date Open High Low Close Market Cap > 1608 2013-04-28 135.30 135.98 132.10 134.21 1,500,520,000 > 1607 2013-04-29 134.44 147.49 134.00 144.54 1,491,160,000 > 1606 2013-04-30 144.00 146.93 134.05 139.00 1,597,780,000
- 代码/配置
$ cat feature-extractor.py > def open_norm_feature_extractor(df): > feature = some_lib.get_open(df) > return feature
- 数据输出
$ cat data-output.csv > Open > 0.57 > 0.59 > 0.47
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 微软:人才稀缺正在阻碍机器学习的大规模运用,“机器教学”或可解决行业痛点
- 解读微软开源 MMLSpark: 统一的大规模机器学习生态系统
- 大规模机器学习在爱奇艺视频分析理解中的实践
- 直面算法霸权:大规模造福工具还是大规模杀伤性武器?
- 实战大规模敏捷
- 大规模微服务实战经验
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Programming Amazon Web Services
James Murty / O'Reilly Media / 2008-3-25 / USD 49.99
Building on the success of its storefront and fulfillment services, Amazon now allows businesses to "rent" computing power, data storage and bandwidth on its vast network platform. This book demonstra......一起来看看 《Programming Amazon Web Services》 这本书的介绍吧!