Apache Spark 2.4 回顾以及 3.0 展望

栏目: 服务器 · 发布时间: 5年前

本文资料来自 2019-03-28 在旧金山举办的 Strata Data Conference,详情请参见 https://conferences.oreilly.com/strata/strata-ca/public/schedule/detail/72637 。分享者来自数砖著名的范文臣和李潇两位大佬。

本次分享包括了对 Apache Spark 2.4 回顾以及对 Apache Spark 3.0 的展望。 Apache Spark 2.4 版本是 2.x 系列的第五个版本,此版本的主要特性包括以下几点:

  • 新的调度模型(Barrier Scheduling),使用户能够将分布式深度学习训练恰当地嵌入到 Spark 的 stage 中,以简化分布式训练工作流程。

  • 添加了35个高阶函数,用于在 Spark SQL 中操作数组/map。

  • 新增一个新的基于 Databricks 的 spark-avro 模块的原生 AVRO 数据源。

  • PySpark 还为教学和可调试性的所有操作引入了热切的评估模式(eager evaluation mode)。

  • Spark on K8S 支持 PySpark 和 R ,支持客户端模式(client-mode)。

  • Structured Streaming 的各种增强功能。 例如,连续处理(continuous processing)中的有状态操作符。

  • 内置数据源的各种性能改进。 例如,Parquet 嵌套模式修剪( schema pruning)。

  • 支持 Scala 2.12。

更多关于 Apache Spark 2.4 的东西请参见《 Apache Spark 2.4 正式发布,重要功能详细介绍》

Apache Spark 3.0 也包含了许多重要的特性,比如 GPU 感知调度( GPU-aware Scheduling,详细请参见 《 Apache Spark 3.0 将内置支持 GPU 调度,文末有福利 ) 、Spark Graph 图的增强、Data Source API V2、自适应执行(Adaptive Execution,详细请参见《 Adaptive Execution如何让Spark SQL更高效更好用? 、Apache Spark SQL自适应执行实践 https://www.iteblog.com/archives/2319.html )、 支持 Hadoop 3.x、支持 Hive 2.3.4、Scala 2.12 GA、更好的ANSI SQL合规性、PySpark 可用性进一步提升等。当然,这仅仅是简单地介绍了 Apache Spark 3.0 的特性,冠以 Spark 3.0 更详细的介绍请参见04月23-25日在旧金山举办的Spark+AI Summit 2019!,下图是 Apache Spark 3.x 的新架构图。

Apache Spark 2.4 回顾以及 3.0 展望

好了,废话不多说了,下面是本次会议的PPT全文,关注 Hadoop技术博文 公众号,并回复 spark-3  获取本文PPT。

Apache Spark 2.4 回顾以及 3.0 展望

Apache Spark 2.4 回顾以及 3.0 展望

Apache Spark 2.4 回顾以及 3.0 展望

Apache Spark 2.4 回顾以及 3.0 展望

Apache Spark 2.4 回顾以及 3.0 展望

Apache Spark 2.4 回顾以及 3.0 展望

猜你喜欢

欢迎关注本公众号: iteblog_hadoop :

回复 spark_summit_201806 下载 Spark Summit North America 201806 全部PPT

spark_summit_eu_2018  下载 Spark+AI Summit europe 2018 全部PPT

回复 HBase_book 下载 2018HBase技术总结 专刊

0、回复  电子书   获取  本站所有可下载的电子书

1、 为什么不建议在 HBase 中使用过多的列族

2、 Elasticsearch 6.3 发布,你们要的 SQL 功能来了

3、 列式存储和行式存储它们真正的区别是什么

4、 分布式原理:一致性哈希算法简介

5、 分布式快照算法: Chandy-Lamport 算法

6、 Kafka分区分配策略

7、 分布式原理:一文了解 Gossip 协议

8、 干货 | Apache Spark 2.0 作业优化技巧

9、 HBase Rowkey 设计指南

10、 HBase 入门之数据刷写详细说明

11、更多大数据文章欢迎访问 https://www.iteblog.com 及本公众号( iteblog_hadoop )

12、Flink中文文档:

http://flink.iteblog.com

13、Carbondata 中文文档

http://carbondata.iteblog.com

Apache Spark 2.4 回顾以及 3.0 展望


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

轻量级Django

轻量级Django

茱莉亚·埃尔曼 (Julia Elman)、马克·拉温 (Mark Lavin) / 侯荣涛、吴磊 / 中国电力出版社; 第1版 / 2016-11-1 / 35.6

自Django 创建以来,各种各样的开源社区已经构建了很多Web 框架,比如JavaScript 社区创建的Angular.js 、Ember.js 和Backbone.js 之类面向前端的Web 框架,它们是现代Web 开发中的先驱。Django 从哪里入手来适应这些框架呢?我们如何将客户端MVC 框架整合成为当前的Django 基础架构? 本书讲述如何利用Django 强大的“自支持”功......一起来看看 《轻量级Django》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具

正则表达式在线测试
正则表达式在线测试

正则表达式在线测试