大规模机器学习-2018的DataOps/MLOps

栏目: 数据库 · 发布时间: 7年前

内容简介：数据科学可以被概括为两个工作流：当数据科学团队较小的时候，不会面临太多的问题，所有事情都相对较好。

动机

数据科学可以被概括为两个工作流：

模型开发
模型服务

大规模机器学习-2018的DataOps/MLOps

当数据科学团队较小的时候，不会面临太多的问题，所有事情都相对较好。

需要维护的模型较少
关于模型的知识在数据科学家的头脑中
每个人有跟踪流程的方法

但是，随着数据科学需求的增长，将面临新的问题

数据流的复杂度增加
- 大量的数据处理工作流
- 数据没有在标准化的流程中修改
- 管理复杂的流和定时任务变得不可管理

大规模机器学习-2018的DataOps/MLOps

每个数据科学家有他们自己的工具集
- 一些喜欢tensorflow
- 一些喜欢R
- 一些喜欢Spark
- 一些喜欢所有
模型服务变得越来越难
- 不同的模板版本跑在不同的环境中
- 部署和回滚模型变得越来越复杂
问题出现很难回溯
- 数据科学家说是数据管道上的bug
- 数据工程师说是模型出了问题
- 变成了猫鼠游戏
幸运的是，许多同行都面临这些的问题有段时间了，这是一个大家都要解决的问题。

数据科学家：负责模型的开发

数据工程师：负责数据管道的开发

DevOps/DataOps/MLOps工程师：负责模型、数据管道和产品的生产化（由原型阶段部署到大规模的生产环境）

概念

因为技术功能变化了，因此基础设施也该对应的进化。

ML-OPS的两个原则：

重现性（Reproducibility）
编排

大规模机器学习-2018的DataOps/MLOps

原则1:模型和数据的版本

大规模机器学习-2018的DataOps/MLOps

数据科学重现性的古老问题。

解藕管道中每一步。

大规模机器学习-2018的DataOps/MLOps

每一步都包含代码/配置，以及特定的数据数据输入和输出。

每一步的抽象：

大规模机器学习-2018的DataOps/MLOps

数据输入

$ cat data-input.csv

>            Date    Open    High     Low   Close     Market Cap
> 1608 2013-04-28  135.30  135.98  132.10  134.21  1,500,520,000
> 1607 2013-04-29  134.44  147.49  134.00  144.54  1,491,160,000
> 1606 2013-04-30  144.00  146.93  134.05  139.00  1,597,780,000

代码/配置

$ cat feature-extractor.py

> def open_norm_feature_extractor(df):
>     feature = some_lib.get_open(df)
>     return feature

数据输出

$ cat data-output.csv

>   Open 
>   0.57 
>   0.59 
>   0.47

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Web Operations

John Allspaw、Jesse Robbins / O'Reilly Media / 2010-6-28 / USD 39.99

A web application involves many specialists, but it takes people in web ops to ensure that everything works together throughout an application's lifetime. It's the expertise you need when your start-u......一起来看看《Web Operations》这本书的介绍吧!

码农工具