本文资料来自 2019-03-28 在旧金山举办的 Strata Data Conference,详情请参见 https://conferences.oreilly.com/strata/strata-ca/public/schedule/detail/72637 。分享者来自数砖著名的范文臣和李潇两位大佬。
本次分享包括了对 Apache Spark 2.4 回顾以及对 Apache Spark 3.0 的展望。 Apache Spark 2.4 版本是 2.x 系列的第五个版本,此版本的主要特性包括以下几点:
-
新的调度模型(Barrier Scheduling),使用户能够将分布式深度学习训练恰当地嵌入到 Spark 的 stage 中,以简化分布式训练工作流程。
-
添加了35个高阶函数,用于在 Spark SQL 中操作数组/map。
-
新增一个新的基于 Databricks 的 spark-avro 模块的原生 AVRO 数据源。
-
PySpark 还为教学和可调试性的所有操作引入了热切的评估模式(eager evaluation mode)。
-
Spark on K8S 支持 PySpark 和 R ,支持客户端模式(client-mode)。
-
Structured Streaming 的各种增强功能。 例如,连续处理(continuous processing)中的有状态操作符。
-
内置数据源的各种性能改进。 例如,Parquet 嵌套模式修剪( schema pruning)。
-
支持 Scala 2.12。
更多关于 Apache Spark 2.4 的东西请参见《 Apache Spark 2.4 正式发布,重要功能详细介绍》 。
Apache Spark 3.0 也包含了许多重要的特性,比如 GPU 感知调度( GPU-aware Scheduling,详细请参见 《 Apache Spark 3.0 将内置支持 GPU 调度,文末有福利 》 ) 、Spark Graph 图的增强、Data Source API V2、自适应执行(Adaptive Execution,详细请参见《 Adaptive Execution如何让Spark SQL更高效更好用? 》 、Apache Spark SQL自适应执行实践 https://www.iteblog.com/archives/2319.html )、 支持 Hadoop 3.x、支持 Hive 2.3.4、Scala 2.12 GA、更好的ANSI SQL合规性、PySpark 可用性进一步提升等。当然,这仅仅是简单地介绍了 Apache Spark 3.0 的特性,冠以 Spark 3.0 更详细的介绍请参见04月23-25日在旧金山举办的Spark+AI Summit 2019!,下图是 Apache Spark 3.x 的新架构图。
好了,废话不多说了,下面是本次会议的PPT全文,关注 Hadoop技术博文 公众号,并回复 spark-3 获取本文PPT。
猜你喜欢
欢迎关注本公众号: iteblog_hadoop :
回复 spark_summit_201806 下载 Spark Summit North America 201806 全部PPT
回 复 spark_summit_eu_2018 下载 Spark+AI Summit europe 2018 全部PPT
回复 HBase_book 下载 2018HBase技术总结 专刊
0、回复 电子书 获取 本站所有可下载的电子书
2、 Elasticsearch 6.3 发布,你们要的 SQL 功能来了
6、 Kafka分区分配策略
8、 干货 | Apache Spark 2.0 作业优化技巧
11、更多大数据文章欢迎访问 https://www.iteblog.com 及本公众号( iteblog_hadoop )
12、Flink中文文档:
http://flink.iteblog.com
13、Carbondata 中文文档 :
http://carbondata.iteblog.com
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网
猜你喜欢:- 回顾2017,展望2018
- 前端开发 2018 回顾及 2019 展望
- Kubernetes 五周年回顾与展望
- 回顾&展望:杀毒软件的“前世今生”
- ARCore和Unity:2018年回顾及展望
- Arthas Github Star破万啦,回顾开源历程,展望未来
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。