大规模机器学习-2018的DataOps/MLOps

栏目: 数据库 · 发布时间: 6年前

内容简介:数据科学可以被概括为两个工作流:当数据科学团队较小的时候,不会面临太多的问题,所有事情都相对较好。

动机

数据科学可以被概括为两个工作流:

  • 模型开发
  • 模型服务

大规模机器学习-2018的DataOps/MLOps

当数据科学团队较小的时候,不会面临太多的问题,所有事情都相对较好。

  • 需要维护的模型较少
  • 关于模型的知识在数据科学家的头脑中
  • 每个人有跟踪流程的方法

但是,随着数据科学需求的增长,将面临新的问题

  • 数据流的复杂度增加
    • 大量的数据处理工作流
    • 数据没有在标准化的流程中修改
    • 管理复杂的流和定时任务变得不可管理

大规模机器学习-2018的DataOps/MLOps

  • 每个数据科学家有他们自己的 工具

    • 一些喜欢tensorflow
    • 一些喜欢R
    • 一些喜欢Spark
    • 一些喜欢所有

    大规模机器学习-2018的DataOps/MLOps

  • 模型服务变得越来越难

    • 不同的模板版本跑在不同的环境中
    • 部署和回滚模型变得越来越复杂
  • 问题出现很难回溯

    • 数据科学家说是数据管道上的bug
    • 数据工程师说是模型出了问题
    • 变成了猫鼠游戏

    大规模机器学习-2018的DataOps/MLOps

    幸运的是,许多同行都面临这些的问题有段时间了,这是一个大家都要解决的问题。

    数据科学家:负责模型的开发

    数据工程师:负责数据管道的开发

    DevOps/DataOps/MLOps工程师:负责模型、数据管道和产品的生产化(由原型阶段部署到大规模的生产环境)

    概念

    因为技术功能变化了,因此基础设施也该对应的进化。

    大规模机器学习-2018的DataOps/MLOps

    大规模机器学习-2018的DataOps/MLOps

ML-OPS的两个原则:

  • 重现性(Reproducibility)
  • 编排

大规模机器学习-2018的DataOps/MLOps

原则1:模型和数据的版本

大规模机器学习-2018的DataOps/MLOps

数据科学重现性的古老问题。

解藕管道中每一步。

大规模机器学习-2018的DataOps/MLOps

每一步都包含代码/配置,以及特定的数据数据输入和输出。

每一步的抽象:

大规模机器学习-2018的DataOps/MLOps

  • 数据输入
$ cat data-input.csv

>            Date    Open    High     Low   Close     Market Cap
> 1608 2013-04-28  135.30  135.98  132.10  134.21  1,500,520,000
> 1607 2013-04-29  134.44  147.49  134.00  144.54  1,491,160,000
> 1606 2013-04-30  144.00  146.93  134.05  139.00  1,597,780,000
  • 代码/配置
$ cat feature-extractor.py

> def open_norm_feature_extractor(df):
>     feature = some_lib.get_open(df)
>     return feature
  • 数据输出
$ cat data-output.csv

>   Open 
>   0.57 
>   0.59 
>   0.47

以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

四步创业法

四步创业法

[美] Steven Gary Blank / 七印部落 / 华中科技大学出版社 / 2012-8-1 / 48.00

《四步创业法》获李开复推荐,是精益创业理论的奠基之作。作者Steven Gary Blank博士是硅谷资深企业家,他一共创办了八家企业,并担任多家硅谷公司的董事和创业顾问。本书总结作者25年创业经验,提出全新的客户发展方法 (诣在弥补传统产品开发方法的缺陷) ,掀起了硅谷近年精益创业 的浪潮。七印部落正在翻译作者的博客和授课视频,欢迎访问微博:http://weibo.com/7seals ......一起来看看 《四步创业法》 这本书的介绍吧!

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

XML、JSON 在线转换
XML、JSON 在线转换

在线XML、JSON转换工具

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具