Apache Spark 2.4 回顾以及 3.0 展望

栏目: 服务器 · 发布时间: 7年前

本文资料来自 2019-03-28 在旧金山举办的 Strata Data Conference，详情请参见 https://conferences.oreilly.com/strata/strata-ca/public/schedule/detail/72637 。分享者来自数砖著名的范文臣和李潇两位大佬。

本次分享包括了对 Apache Spark 2.4 回顾以及对 Apache Spark 3.0 的展望。 Apache Spark 2.4 版本是 2.x 系列的第五个版本，此版本的主要特性包括以下几点：

新的调度模型（Barrier Scheduling），使用户能够将分布式深度学习训练恰当地嵌入到 Spark 的 stage 中，以简化分布式训练工作流程。
添加了35个高阶函数，用于在 Spark SQL 中操作数组/map。
新增一个新的基于 Databricks 的 spark-avro 模块的原生 AVRO 数据源。
PySpark 还为教学和可调试性的所有操作引入了热切的评估模式（eager evaluation mode）。
Spark on K8S 支持 PySpark 和 R ，支持客户端模式（client-mode）。
Structured Streaming 的各种增强功能。例如，连续处理（continuous processing）中的有状态操作符。
内置数据源的各种性能改进。例如，Parquet 嵌套模式修剪（ schema pruning）。
支持 Scala 2.12。

更多关于 Apache Spark 2.4 的东西请参见《 Apache Spark 2.4 正式发布，重要功能详细介绍》。

Apache Spark 3.0 也包含了许多重要的特性，比如 GPU 感知调度（ GPU-aware Scheduling，详细请参见《 Apache Spark 3.0 将内置支持 GPU 调度，文末有福利》）、Spark Graph 图的增强、Data Source API V2、自适应执行（Adaptive Execution，详细请参见《 Adaptive Execution如何让Spark SQL更高效更好用？》、Apache Spark SQL自适应执行实践 https://www.iteblog.com/archives/2319.html ）、支持 Hadoop 3.x、支持 Hive 2.3.4、Scala 2.12 GA、更好的ANSI SQL合规性、PySpark 可用性进一步提升等。当然，这仅仅是简单地介绍了 Apache Spark 3.0 的特性，冠以 Spark 3.0 更详细的介绍请参见04月23-25日在旧金山举办的Spark+AI Summit 2019！，下图是 Apache Spark 3.x 的新架构图。

Apache Spark 2.4 回顾以及 3.0 展望

好了，废话不多说了，下面是本次会议的PPT全文，关注 Hadoop技术博文 公众号，并回复 spark-3 获取本文PPT。

Apache Spark 2.4 回顾以及 3.0 展望

猜你喜欢

欢迎关注本公众号： iteblog_hadoop :

回复 spark_summit_201806 下载 Spark Summit North America 201806 全部PPT

回复 spark_summit_eu_2018 下载 Spark+AI Summit europe 2018 全部PPT

回复 HBase_book 下载 2018HBase技术总结专刊

0、回复 电子书 获取 本站所有可下载的电子书

1、为什么不建议在 HBase 中使用过多的列族

2、 Elasticsearch 6.3 发布，你们要的 SQL 功能来了

3、列式存储和行式存储它们真正的区别是什么

4、分布式原理：一致性哈希算法简介

5、分布式快照算法: Chandy-Lamport 算法

6、 Kafka分区分配策略

7、分布式原理：一文了解 Gossip 协议

8、干货 | Apache Spark 2.0 作业优化技巧

9、 HBase Rowkey 设计指南

10、 HBase 入门之数据刷写详细说明

11、更多大数据文章欢迎访问 https://www.iteblog.com 及本公众号( iteblog_hadoop )

12、Flink中文文档：

http://flink.iteblog.com

13、Carbondata 中文文档：

http://carbondata.iteblog.com

Apache Spark 2.4 回顾以及 3.0 展望

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

任性

电子工业出版社 / 2015-10-1 / 49.00

《任性：互联网语言表达的调性和技巧》是一本深度介绍互联网调性的书，也是从社会化媒体运作的角度较为系统地讲解互联网语言表达的书，它以独特的视角，从技术、需求和表现形式三种驱动力展开，从理论、策略、方法、技巧、实践等角度详细解析了互联网表达的变化和社会媒体的运营。《任性：互联网语言表达的调性和技巧》适合互联网从业人员阅读。一起来看看《任性》这本书的介绍吧!

码农工具

Apache Spark 2.4 回顾以及 3.0 展望

任性

在线进制转换器

UNIX 时间戳转换

HEX HSV 转换工具