LinkedIn开源TonY:在Hadoop上运行TensorFlow的框架

栏目: 编程工具 · 发布时间: 7年前

LinkedIn公司近日向开源社区捐赠了另一个内部创建的软件项目。

现在隶属微软的这家公司在贡献开源软件方面有着悠久的历史,包括像Apache Kafka及其最新的Dynamometer工具这些热门项目。它的最新项目名为“TensorFlow on YARN”(简称“TonY”),旨在帮助将开源TensorFlow机器学习框架与存储在Apache Hadoop中的数据连接起来。

TensorFlow是谷歌在2015年发布的一个开源软件库,它让开发人员更容易设计、构建和训练深度学习模型。它之所以是最受欢迎的机器学习框架之一,是由于它可以训练和运行面向手写数字分类、图像识别和单词嵌入的深度神经网络、递归神经网络以及序列到序列模型,用于机器翻译和自然语言处理等其他任务。

Hadoop是一种分布式处理软件框架,可以为“大数据”应用管理数据处理和存储。它是一个不断发展壮大的生态系统的核心,该生态系统涵盖的大数据技术主要用于支持高级分析项目,包括预测分析、数据挖掘和机器学习等应用。

LinkedIn的软件工程师Jonathan Hung在博文中表示,该公司构建TonY的初衷是,它越来越依赖深度神经网络来支持其网站上的一些功能,包括新闻源(news feed)和智能回复。

LinkedIn面临的问题是,许多这些功能是使用TensorFlow构建的,而TensorFlow缺少连接Hadoop集群的一种可靠方式,以便使用该数据来训练算法。

Hung说:“我们的Hadoop集群上存储了可用于深度学习的数百PB的数据,因此我们需要一种易于扩展的方式来处理所有这些信息。”

TensorFlow已经在支持“分布式训练”,这种技术对于处理庞大数据集(如存储在Hadoop中的数据集)非常有用。Hung解释,但是LinkedIn面临的主要问题是,这个过程需要手动编排,这“不是一件易事”,也不是大多数数据科学家有能力做的事。

于是Hung及其团队着手开发TonY,以便自动化处理这项任务。Hung表示,该软件的工作方式类似MapReduce支持在Hadoop上运行Apache Pig或Apache Hive脚本,可处理“资源协商和容器环境设置”之类的任务。

LinkedIn开源TonY:在Hadoop上运行TensorFlow的框架

TonY架构图

TonY提供了许多功能,有助于改进神经网络的分布式训练工作,包括GPU调度以更好地管理资源、支持TensorBoard因而更容易调试和优化TensorFlow程序以及更好的容错能力,那样一旦出现任何问题,用户可以从之前保存的检查点恢复训练状态。

Constellation研究公司的分析师霍尔格•穆勒(Holger Mueller)表示,TonY堪称开源贡献的一个典范,因为它解决了将TensorFlow连接到Hadoop这个关键问题,同时表明了为什么其他开源项目不太合适。

穆勒说:“LinkedIn给了TonY一个很好的使用场景,并让人相信这是一个切实可行、得到支持的开源项目。它对于希望使用TensorFlow为下一代应用软件提供支持的企业高管们来说很重要,因为数据已经在Hadoop中。它将Hadoop中的“数字化排放”(digital exhaust)与最流行的深度学习神经网络之一结合起来。”

企业高管们考虑的另一个方面是,TonY由现在是微软旗下的LinkedIn开发,所以他们大可放心:从长远来看TonY会继续得到支持。

穆勒补充道:“这给了许多企业莫大的信心,即万一遇到重大情况,它们能有某种依赖。”

LinkedIn表示开源TonY,是为了让有兴趣在Hadoop上运行分布式机器学习的其他人可以使用该项目,并做出贡献。今天开始TonY可从GitHub下载。

声明:本文来自安全内参,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如需转载,请联系原作者获取授权。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

老码识途

老码识途

韩宏 / 电子工业出版社 / 2012-8 / 56.00元

《老"码"识途:从机器码到框架的系统观逆向修炼之路》以逆向反汇编为线索,自底向上,从探索者的角度,原生态地刻画了对系统机制的学习,以及相关问题的猜测、追踪和解决过程,展现了系统级思维方式的淬炼方法。该思维方式是架构师应具备的一种重要素质。《老"码"识途:从机器码到框架的系统观逆向修炼之路》内容涉及反汇编、底层调试、链接、加载、钩子、异常处理、测试驱动开发、对象模型和机制、线程类封装、跨平台技术、插......一起来看看 《老码识途》 这本书的介绍吧!

RGB转16进制工具
RGB转16进制工具

RGB HEX 互转工具

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具