Apache Spark 2.4 回顾以及 3.0 展望

栏目: 服务器 · 发布时间: 5年前

本文资料来自 2019-03-28 在旧金山举办的 Strata Data Conference,详情请参见 https://conferences.oreilly.com/strata/strata-ca/public/schedule/detail/72637 。分享者来自数砖著名的范文臣和李潇两位大佬。

本次分享包括了对 Apache Spark 2.4 回顾以及对 Apache Spark 3.0 的展望。 Apache Spark 2.4 版本是 2.x 系列的第五个版本,此版本的主要特性包括以下几点:

  • 新的调度模型(Barrier Scheduling),使用户能够将分布式深度学习训练恰当地嵌入到 Spark 的 stage 中,以简化分布式训练工作流程。

  • 添加了35个高阶函数,用于在 Spark SQL 中操作数组/map。

  • 新增一个新的基于 Databricks 的 spark-avro 模块的原生 AVRO 数据源。

  • PySpark 还为教学和可调试性的所有操作引入了热切的评估模式(eager evaluation mode)。

  • Spark on K8S 支持 PySpark 和 R ,支持客户端模式(client-mode)。

  • Structured Streaming 的各种增强功能。 例如,连续处理(continuous processing)中的有状态操作符。

  • 内置数据源的各种性能改进。 例如,Parquet 嵌套模式修剪( schema pruning)。

  • 支持 Scala 2.12。

更多关于 Apache Spark 2.4 的东西请参见《 Apache Spark 2.4 正式发布,重要功能详细介绍》

Apache Spark 3.0 也包含了许多重要的特性,比如 GPU 感知调度( GPU-aware Scheduling,详细请参见 《 Apache Spark 3.0 将内置支持 GPU 调度,文末有福利 ) 、Spark Graph 图的增强、Data Source API V2、自适应执行(Adaptive Execution,详细请参见《 Adaptive Execution如何让Spark SQL更高效更好用? 、Apache Spark SQL自适应执行实践 https://www.iteblog.com/archives/2319.html )、 支持 Hadoop 3.x、支持 Hive 2.3.4、Scala 2.12 GA、更好的ANSI SQL合规性、PySpark 可用性进一步提升等。当然,这仅仅是简单地介绍了 Apache Spark 3.0 的特性,冠以 Spark 3.0 更详细的介绍请参见04月23-25日在旧金山举办的Spark+AI Summit 2019!,下图是 Apache Spark 3.x 的新架构图。

Apache Spark 2.4 回顾以及 3.0 展望

好了,废话不多说了,下面是本次会议的PPT全文,关注 Hadoop技术博文 公众号,并回复 spark-3  获取本文PPT。

Apache Spark 2.4 回顾以及 3.0 展望

Apache Spark 2.4 回顾以及 3.0 展望

Apache Spark 2.4 回顾以及 3.0 展望

Apache Spark 2.4 回顾以及 3.0 展望

Apache Spark 2.4 回顾以及 3.0 展望

Apache Spark 2.4 回顾以及 3.0 展望

猜你喜欢

欢迎关注本公众号: iteblog_hadoop :

回复 spark_summit_201806 下载 Spark Summit North America 201806 全部PPT

spark_summit_eu_2018  下载 Spark+AI Summit europe 2018 全部PPT

回复 HBase_book 下载 2018HBase技术总结 专刊

0、回复  电子书   获取  本站所有可下载的电子书

1、 为什么不建议在 HBase 中使用过多的列族

2、 Elasticsearch 6.3 发布,你们要的 SQL 功能来了

3、 列式存储和行式存储它们真正的区别是什么

4、 分布式原理:一致性哈希算法简介

5、 分布式快照算法: Chandy-Lamport 算法

6、 Kafka分区分配策略

7、 分布式原理:一文了解 Gossip 协议

8、 干货 | Apache Spark 2.0 作业优化技巧

9、 HBase Rowkey 设计指南

10、 HBase 入门之数据刷写详细说明

11、更多大数据文章欢迎访问 https://www.iteblog.com 及本公众号( iteblog_hadoop )

12、Flink中文文档:

http://flink.iteblog.com

13、Carbondata 中文文档

http://carbondata.iteblog.com

Apache Spark 2.4 回顾以及 3.0 展望


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

思考的技术

思考的技术

[日]大前研一 / 刘锦秀、谢育容 / 中信出版社 / 2010-11 / 32.00元

思路决定出路,没有了思路,也就没有了出路。 在充满危机与冒险的当下,我们缺乏的不是技巧而是揭发事务本质的动力和好奇心,缺少怀疑一切的心态和对固有模式的怠惰。 大前研一凭借他30多年的管理咨询经验,为我们提供了一种全新的可借鉴的思考方式。 企业和个人惟有改变既有的思考模式,放弃对过去成功经验的迷恋,学习有创意的思考方法,方能找到正确的经营思路。一起来看看 《思考的技术》 这本书的介绍吧!

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具