专访Saumitra Buragohain : Hortonworks数据平台3.0

栏目: 服务器 · 发布时间: 7年前

内容简介:最近,基于InfoQ就Hadoop的总体情况,特别是HDP 3.0采访了Hortonworks的产品管理高级总监Saumitra Buragohain。InfoQ:鉴于Spark、Kafka和其他大数据平台的成功,Hadoop是否已经过时了?总体上

最近,基于 Hadoop 3.1 的Hortonworks数据平台(HDP)3.0 正式发布 了,它包含容器化、支持GPU、纠删码和Namenode Federation。企业功能包括利用HDP 3.0默认安装的Apache Ranger和Apache Atlas的可信数据湖。该版本还去掉了一些组件,如:Apache Falcon、Apache Mahout、Apache Flume和Apache Hue,同时Apache Slider功能已经融入了Apache YARN。

InfoQ就Hadoop的总体情况,特别是HDP 3.0采访了Hortonworks的产品管理高级总监Saumitra Buragohain。

InfoQ:鉴于Spark、Kafka和其他大数据平台的成功,Hadoop是否已经过时了?总体上 Hadoop 特别是HDP 3.0 企业 仍有怎样的 相关性,为什么开发人员要关注它们?

Buragohain:Hadoop已经不再是10年前主要是跟存储层(Apache HDFS)和工作负载(MapReduce)有关的Hadoop了。我们现在处在工业4.0革命的前沿,Hadoop大数据栈已经发展到包含实时数据库(由Apache Hive 3.0提供支持)、机器学习和深度学习平台(Apache Spark和Apache TensorFlow)、流处理(Apache Kafka和Apache Storm)、运营数据存储(Apache Phoenix和Apache HBase)。请继续关注我们的HDP 3.0 博客系列!HDP 3.0 能够自有部署(on-prem),也可以部署于所有主要的云供应商(亚马逊、Azure和谷歌云)。

InfoQ:HDP 3.0 的实时数据库是否旨在为交互式查询提供类似Spark的功能?您能否详细谈谈实现,提供一些技术细节?它如何能够帮助那些不需要大量编程的数据科学家?

Buragohain:实时数据库由Apache Hive 3.0和Apache Druid提供支持,并允许单个 SQL 层用于批处理和历史数据集。Druid允许创建OLAP cubing,以便我们能够实时查询大型数据集。在HDP 3.0中特别要强调的Apache Hive特性包括:

用于LLAP的工作负载管理:您现在能够在多租户环境中运行LLAP而无需担心资源竞争。

ACID v2和ACID默认打开:我们正在发布ACID v2。随着存储类型和执行引擎上性能的改进,与非ACID表相比,我们看到了相同或更好的性能。因此,我们默认启用ACID并且为数据更新提供完全的支持。

用于Spark的Hive仓库连接器:Hive仓库连接器允许您把Spark应用和Hive数据仓库连接在一起。连接器自动处理ACID表。

物化视图导航:Hive的查询引擎现在支持物化视图。该查询将在物化视图可用时自动使用它们以加速查询。

信息架构:Hive现在直接通过Hive SQL接口公开数据库的元数据(表、列等等)。

JDBC存储连接器:您现在能够映射任何JDBC。

HDP 3.0中特别值得留意的Druid功能包括:

Kafka – Druid摄入:您现在能够将Kafka主题映射到Druid表中。事件将被自动摄入并可用于近乎实时的查询。

InfoQ:到处都是容器。请谈谈在HDP 3.0中如何利用容器?

Buragohain:YARN一直在内存和CPU粒度上支持本机容器。我们正在扩展该模型以支持 Docker 容器,并在内存和CPU之上添加了GPU支持。这意味着,现在我能够把我的应用程序(如Spark)和诸如Python(无论是版本2.7还是版本3.0)及不同的 Python 库这样的依赖项打包在一起,并在与其他租户共享的HDP 3.0集群中隔离运行。这意味着,我也能够利用GPU池特性,在YARN上运行Docker化TensorFlow 1.8 。这也意味着,我能够解除和转移第三方工作负载,并在HDP 3.0上运行它们。因此,这就是HDP 3.0的强大功能,我们已经从10年前的Hadoop 1.0发展到现在。

InfoQ:深度学习是另一种趋势科技,并且看起来,在HDP 3.0和机器学习之间的协同作用增加了。您能否谈谈HDP和深度学习的使用?

Buragohain:当然可以。多年来,我们一直将Spark作为HDP栈的核心组件,这是HDP在客户安装基础上最大的工作负载之一。现在,我们正在扩展到深度学习框架,支持诸如GPU池/隔离这样的功能,从而让昂贵的GPU可以成为多个数据科学家共享的资源。正如上面所提到的,我们也支持容器化工作负载,因此,我能够利用YARN GPU池和存储在HDP 3.0数据存储层(或云存储中,如果HDP 3.0部署在云中)的训练数据,运行容器化TensorFlow 1.8来训练深度学习模型。您还能够观看我们的 主题 演示,那是在DataWorks峰会上,我们用HDP 3.0技术训练了一辆自动驾驶汽车(1:10的比例)。

InfoQ:纠删码是Hadoop 3.0的一部分。您能否谈谈它是如何实现的?HDP 3.0是否有其他调整?

Buragohain:纠删码本质上是跨节点的RAID。就像在企业存储行业中,供应商和客户已经采用了RAID6来支持RAID10(镜像),我们正在对Hadoop数据存储(Apache HDFS)进行类似的转变。我们把数据分成6个分片,并创建了3个奇偶校验分片,而不是为同样的数据创建2个相同的备份。这9个分片现在存储在9个节点中。因此,如果有3个节点宕机,我们将有6个分片(数据或奇偶校验),并且能够构建该数据。因此,这就是我们如何提供与3副本方法相同的故障恢复能力,同时将存储足迹减少一半。

我们默认使用副本方法。客户将需要配置一个目录以让纠删码编码,我们可以选择多个纠删码Reed Solomon编码:RS(6,3);RS(10,4);RS(3,2)。然后,任何进入该目录的数据是经过纠删码编码的。我们最初支持对冷数据的纠删码编码,但是,我们正在提供可选的英特尔存储加速库作为HDP 3.0实用程序的一部分以实现可选的硬件加速。

InfoQ:除了Hadoop 3.0提供的特性 之外,HDP 3.0增加了什么?HDP 3.0及更高版本的路线图是什么?

Buragohain:请继续关注我们的博客。HDP 3.0  最近正式发布 了,我们的 发布说明 详细描述了这些特性(跨实时数据库、流处理、机器学习和深度学习平台等等)。最后,我们在 工具 箱里提供了所有的工具,以便客户选取(可以与单个工作负载供应商比较一下)。我们正在对HDP进行长期投资,在2019年,我们将有更多令人兴奋的更新!

HDP 3.0的发布说明可以从HDP 3.0 发布说明页面 下载。

查看英文原文: Q&A with Saumitra Buragohain on Hortonworks Data Platform 3.0

感谢冬雨对本文的审校。


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

The Intersectional Internet

The Intersectional Internet

Safiya Umoja Noble、Brendesha M. Tynes / Peter Lang Publishing / 2016

From race, sex, class, and culture, the multidisciplinary field of Internet studies needs theoretical and methodological approaches that allow us to question the organization of social relations that ......一起来看看 《The Intersectional Internet》 这本书的介绍吧!

Base64 编码/解码
Base64 编码/解码

Base64 编码/解码

html转js在线工具
html转js在线工具

html转js在线工具

HEX CMYK 转换工具
HEX CMYK 转换工具

HEX CMYK 互转工具