大规模机器学习-2018的DataOps/MLOps

栏目: 数据库 · 发布时间: 5年前

内容简介:数据科学可以被概括为两个工作流:当数据科学团队较小的时候,不会面临太多的问题,所有事情都相对较好。

动机

数据科学可以被概括为两个工作流:

  • 模型开发
  • 模型服务

大规模机器学习-2018的DataOps/MLOps

当数据科学团队较小的时候,不会面临太多的问题,所有事情都相对较好。

  • 需要维护的模型较少
  • 关于模型的知识在数据科学家的头脑中
  • 每个人有跟踪流程的方法

但是,随着数据科学需求的增长,将面临新的问题

  • 数据流的复杂度增加
    • 大量的数据处理工作流
    • 数据没有在标准化的流程中修改
    • 管理复杂的流和定时任务变得不可管理

大规模机器学习-2018的DataOps/MLOps

  • 每个数据科学家有他们自己的 工具

    • 一些喜欢tensorflow
    • 一些喜欢R
    • 一些喜欢Spark
    • 一些喜欢所有

    大规模机器学习-2018的DataOps/MLOps

  • 模型服务变得越来越难

    • 不同的模板版本跑在不同的环境中
    • 部署和回滚模型变得越来越复杂
  • 问题出现很难回溯

    • 数据科学家说是数据管道上的bug
    • 数据工程师说是模型出了问题
    • 变成了猫鼠游戏

    大规模机器学习-2018的DataOps/MLOps

    幸运的是,许多同行都面临这些的问题有段时间了,这是一个大家都要解决的问题。

    数据科学家:负责模型的开发

    数据工程师:负责数据管道的开发

    DevOps/DataOps/MLOps工程师:负责模型、数据管道和产品的生产化(由原型阶段部署到大规模的生产环境)

    概念

    因为技术功能变化了,因此基础设施也该对应的进化。

    大规模机器学习-2018的DataOps/MLOps

    大规模机器学习-2018的DataOps/MLOps

ML-OPS的两个原则:

  • 重现性(Reproducibility)
  • 编排

大规模机器学习-2018的DataOps/MLOps

原则1:模型和数据的版本

大规模机器学习-2018的DataOps/MLOps

数据科学重现性的古老问题。

解藕管道中每一步。

大规模机器学习-2018的DataOps/MLOps

每一步都包含代码/配置,以及特定的数据数据输入和输出。

每一步的抽象:

大规模机器学习-2018的DataOps/MLOps

  • 数据输入
$ cat data-input.csv

>            Date    Open    High     Low   Close     Market Cap
> 1608 2013-04-28  135.30  135.98  132.10  134.21  1,500,520,000
> 1607 2013-04-29  134.44  147.49  134.00  144.54  1,491,160,000
> 1606 2013-04-30  144.00  146.93  134.05  139.00  1,597,780,000
  • 代码/配置
$ cat feature-extractor.py

> def open_norm_feature_extractor(df):
>     feature = some_lib.get_open(df)
>     return feature
  • 数据输出
$ cat data-output.csv

>   Open 
>   0.57 
>   0.59 
>   0.47

以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

互联网浪尖上的女性

互联网浪尖上的女性

田玉翠 / 人民出版社 / 2017-1 / 68.00

二十三个真实、前沿的女性创业者实例,带你走进“她世界”洞悉“她经济”。《互联网浪尖上的女性》不仅仅关于创业,更是关于女性如何追逐自己的梦想,让人生更丰满、更精彩。一起来看看 《互联网浪尖上的女性》 这本书的介绍吧!

MD5 加密
MD5 加密

MD5 加密工具

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具