大规模机器学习-2018的DataOps/MLOps

栏目: 数据库 · 发布时间: 6年前

内容简介:数据科学可以被概括为两个工作流:当数据科学团队较小的时候,不会面临太多的问题,所有事情都相对较好。

动机

数据科学可以被概括为两个工作流:

  • 模型开发
  • 模型服务

大规模机器学习-2018的DataOps/MLOps

当数据科学团队较小的时候,不会面临太多的问题,所有事情都相对较好。

  • 需要维护的模型较少
  • 关于模型的知识在数据科学家的头脑中
  • 每个人有跟踪流程的方法

但是,随着数据科学需求的增长,将面临新的问题

  • 数据流的复杂度增加
    • 大量的数据处理工作流
    • 数据没有在标准化的流程中修改
    • 管理复杂的流和定时任务变得不可管理

大规模机器学习-2018的DataOps/MLOps

  • 每个数据科学家有他们自己的 工具

    • 一些喜欢tensorflow
    • 一些喜欢R
    • 一些喜欢Spark
    • 一些喜欢所有

    大规模机器学习-2018的DataOps/MLOps

  • 模型服务变得越来越难

    • 不同的模板版本跑在不同的环境中
    • 部署和回滚模型变得越来越复杂
  • 问题出现很难回溯

    • 数据科学家说是数据管道上的bug
    • 数据工程师说是模型出了问题
    • 变成了猫鼠游戏

    大规模机器学习-2018的DataOps/MLOps

    幸运的是,许多同行都面临这些的问题有段时间了,这是一个大家都要解决的问题。

    数据科学家:负责模型的开发

    数据工程师:负责数据管道的开发

    DevOps/DataOps/MLOps工程师:负责模型、数据管道和产品的生产化(由原型阶段部署到大规模的生产环境)

    概念

    因为技术功能变化了,因此基础设施也该对应的进化。

    大规模机器学习-2018的DataOps/MLOps

    大规模机器学习-2018的DataOps/MLOps

ML-OPS的两个原则:

  • 重现性(Reproducibility)
  • 编排

大规模机器学习-2018的DataOps/MLOps

原则1:模型和数据的版本

大规模机器学习-2018的DataOps/MLOps

数据科学重现性的古老问题。

解藕管道中每一步。

大规模机器学习-2018的DataOps/MLOps

每一步都包含代码/配置,以及特定的数据数据输入和输出。

每一步的抽象:

大规模机器学习-2018的DataOps/MLOps

  • 数据输入
$ cat data-input.csv

>            Date    Open    High     Low   Close     Market Cap
> 1608 2013-04-28  135.30  135.98  132.10  134.21  1,500,520,000
> 1607 2013-04-29  134.44  147.49  134.00  144.54  1,491,160,000
> 1606 2013-04-30  144.00  146.93  134.05  139.00  1,597,780,000
  • 代码/配置
$ cat feature-extractor.py

> def open_norm_feature_extractor(df):
>     feature = some_lib.get_open(df)
>     return feature
  • 数据输出
$ cat data-output.csv

>   Open 
>   0.57 
>   0.59 
>   0.47

以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Programming Amazon Web Services

Programming Amazon Web Services

James Murty / O'Reilly Media / 2008-3-25 / USD 49.99

Building on the success of its storefront and fulfillment services, Amazon now allows businesses to "rent" computing power, data storage and bandwidth on its vast network platform. This book demonstra......一起来看看 《Programming Amazon Web Services》 这本书的介绍吧!

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试

RGB CMYK 转换工具
RGB CMYK 转换工具

RGB CMYK 互转工具

HSV CMYK 转换工具
HSV CMYK 转换工具

HSV CMYK互换工具