Hadoop Submarine为Hadoop增添了深度学习

栏目: 编程工具 · 发布时间: 7年前

内容简介：在ApacheHadoop上有一个新的Hadoop项目，用于构建深度学习框架，如TensorFlow。 Submarine与Zeppelin和Azkaban进行了集成，用于运行作业。Hadoop是一个框架，可用于使用简单的编程模型跨计算机集群处理大型数据集。新项目旨在改善对使用深度学习分析Hadoop数据的支持。

在ApacheHadoop上有一个新的Hadoop项目，用于构建深度学习框架，如TensorFlow。 Submarine与Zeppelin和Azkaban进行了集成，用于运行作业。

Hadoop是一个框架，可用于使用简单的编程模型跨计算机集群处理大型数据集。新项目旨在改善对使用深度学习分析Hadoop数据的支持。

Hadoop Submarine为Hadoop增添了深度学习

Hadoop Submarine的目的是让分布式深度学习/机器学习应用程序更容易启动、管理和监控，这些应用程序是在TensorFlow等框架中创建的。Submarine的其他改进包括更好的GPU支持、 Docker 容器支持、容器- DNS支持和调度改进。

开发人员表示，这些改进使得在Apache Hadoop YARN上运行分布式深度学习/机器学习应用程序变得如同在本地运行此类应用程序一样容易。用户将能够在同一群集上运行的其他ETL/streaming运行深度学习工作负载。

Submarine项目有两个部分：Submarine 计算引擎和一套Submarine生态系统集成插件和工具。

计算引擎从命令行向YARN提交定制的深度学习应用程序（如Tensorflow，Pytorch等）。这些应用程序与YARN上的其他应用程序并行运行，例如Apache Spark和Hadoop Map/Reduce。

一组集成位于计算引擎之上。目前的清单增加了Submarine和Zeppelin以及Submarine和Azkaban之间的整合。

Zeppelin集成意味着数据科学家可以在Zeppelin笔记本中编码，并直接从笔记本提交/管理培训工作。 Zeppelin是一个基于Web的笔记本，支持通过SQL，Scala和 Python 进行交互式数据分析。制作数据驱动的交互式协作文档。 Zeppelin有20多个口译员，涵盖Spark，Hive，Cassandra，Elasticsearch，Kylin和HBase等产品，用于收集数据，清理数据，特征提取等。这些可以先使用，然后机器学习模型培训可以工作关于干净的数据。

Azkaban是一个批处理工作流程调度服务。它是在LinkedIn开发的，用于运行Hadoop工作。 Azkaban通过作业依赖性解决了排序问题，并提供了一个易于使用的Web用户界面来维护和跟踪工作流程。与潜艇的集成意味着数据科学家可以从笔记本中直接向Azkaban提交一组具有依赖关系的任务。

开发人员表示，Hadoop Submarine项目的总体目标是为数据（数据采集，数据处理，数据清理），算法（交互式，可视化编程和调优），资源调度，算法提供深度学习算法的服务支持功能。模型发布和作业调度。

使用Zeppelin负责数据和算法，而添加Azkaban则处理作业调度。计划是三件套工具：Zeppelin，Hadoop Submarine和Azkaban将提供一个开放且随时可用的深度学习开发平台。

更多信息

Apache Submarine On GitHub

Hadoop项目之基于CentOS7的Cloudera 5.10.1（CDH）的安装部署 https://www.linuxidc.com/Linux/2017-04/143095.htm

CentOS 7.4下Hadoop 2.7.6安装部署 https://www.linuxidc.com/Linux/2018-08/153353.htm

Hadoop2.7.2集群搭建详解（高可用） https://www.linuxidc.com/Linux/2017-03/142052.htm

使用Ambari来部署Hadoop集群（搭建内网HDP源） https://www.linuxidc.com/Linux/2017-03/142136.htm

CentOS 7 下搭建Hadoop 2.9 分布式集群 https://www.linuxidc.com/Linux/2018-11/155328.htm

在 LinuxUbuntu 18.04/18.10上安装Hadoop图文详解 https://www.linuxidc.com/Linux/2018-11/155282.htm

CentOS 7 下 Hadoop 2.6.4 分布式集群环境搭建 https://www.linuxidc.com/Linux/2017-06/144932.htm

Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程 https://www.linuxidc.com/Linux/2017-06/144926.htm

CentOS 7.4下编译安装Hadoop 2.7.6 及所需文件 https://www.linuxidc.com/Linux/2018-06/152786.htm

Ubuntu 16.04.3 下安装配置 Hadoop https://www.linuxidc.com/Linux/2018-04/151993.htm

更多Hadoop相关信息见 Hadoop 专题页面 https://www.linuxidc.com/topicnews.aspx?tid=13

Linux公社的RSS地址： https://www.linuxidc.com/rssFeed.aspx

本文永久更新链接地址： https://www.linuxidc.com/Linux/2018-12/156061.htm

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

创新者的处方

[美]克莱顿·克里斯坦森、杰罗姆·格罗斯曼、黄捷升 / 朱恒鹏、张琦 / 中国人民大学出版社 / 2015-9 / 89.90元

[内容简介] ● 创新大师克里斯坦森采用了哈佛商学院在20年研究中总结而出的、在各行业实践中获得成功的管理创新经验，把颠覆式创新理念引入美国医疗行业研究。医疗机构需要量体裁衣，选择合适的商业模式展开创新之举。 ● 作者同时探讨了医疗保险公司、制药企业、医学院和政府机构在医疗改革中起到的作用，从社会性角度深入剖析了医疗保健行业未来之路。 ● 医疗界人士、政策制定者、对医疗界现......一起来看看《创新者的处方》这本书的介绍吧!

码农工具

Hadoop Submarine为Hadoop增添了深度学习

更多信息

创新者的处方

CSS 压缩/解压工具

RGB转16进制工具

HEX CMYK 转换工具