内容简介:数据科学可以被概括为两个工作流:当数据科学团队较小的时候,不会面临太多的问题,所有事情都相对较好。
动机
数据科学可以被概括为两个工作流:
- 模型开发
- 模型服务
当数据科学团队较小的时候,不会面临太多的问题,所有事情都相对较好。
- 需要维护的模型较少
- 关于模型的知识在数据科学家的头脑中
- 每个人有跟踪流程的方法
但是,随着数据科学需求的增长,将面临新的问题
- 数据流的复杂度增加
- 大量的数据处理工作流
- 数据没有在标准化的流程中修改
- 管理复杂的流和定时任务变得不可管理
-
每个数据科学家有他们自己的 工具 集
- 一些喜欢tensorflow
- 一些喜欢R
- 一些喜欢Spark
- 一些喜欢所有
-
模型服务变得越来越难
- 不同的模板版本跑在不同的环境中
- 部署和回滚模型变得越来越复杂
-
问题出现很难回溯
- 数据科学家说是数据管道上的bug
- 数据工程师说是模型出了问题
- 变成了猫鼠游戏
幸运的是,许多同行都面临这些的问题有段时间了,这是一个大家都要解决的问题。
数据科学家:负责模型的开发
数据工程师:负责数据管道的开发
DevOps/DataOps/MLOps工程师:负责模型、数据管道和产品的生产化(由原型阶段部署到大规模的生产环境)
概念
因为技术功能变化了,因此基础设施也该对应的进化。
ML-OPS的两个原则:
- 重现性(Reproducibility)
- 编排
原则1:模型和数据的版本
数据科学重现性的古老问题。
解藕管道中每一步。
每一步都包含代码/配置,以及特定的数据数据输入和输出。
每一步的抽象:
- 数据输入
$ cat data-input.csv > Date Open High Low Close Market Cap > 1608 2013-04-28 135.30 135.98 132.10 134.21 1,500,520,000 > 1607 2013-04-29 134.44 147.49 134.00 144.54 1,491,160,000 > 1606 2013-04-30 144.00 146.93 134.05 139.00 1,597,780,000
- 代码/配置
$ cat feature-extractor.py > def open_norm_feature_extractor(df): > feature = some_lib.get_open(df) > return feature
- 数据输出
$ cat data-output.csv > Open > 0.57 > 0.59 > 0.47
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 微软:人才稀缺正在阻碍机器学习的大规模运用,“机器教学”或可解决行业痛点
- 解读微软开源 MMLSpark: 统一的大规模机器学习生态系统
- 大规模机器学习在爱奇艺视频分析理解中的实践
- 直面算法霸权:大规模造福工具还是大规模杀伤性武器?
- 实战大规模敏捷
- 大规模微服务实战经验
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
互联网浪尖上的女性
田玉翠 / 人民出版社 / 2017-1 / 68.00
二十三个真实、前沿的女性创业者实例,带你走进“她世界”洞悉“她经济”。《互联网浪尖上的女性》不仅仅关于创业,更是关于女性如何追逐自己的梦想,让人生更丰满、更精彩。一起来看看 《互联网浪尖上的女性》 这本书的介绍吧!