Apache Spark 3.1 发布

栏目: 软件资讯 · 发布时间: 5年前

内容简介:Apache Spark 3.1 作为 Databricks Runtime 8.0 的一部分已正式发布,这也是 Apache Spark 3.x 系列的第二个 release。开发团队表示,为了让 Spark 更快、更方便使用以及更智能,Spark 3.1 对以下特性进行了扩展:...

Apache Spark 3.1 作为 Databricks Runtime 8.0 的一部分已正式发布,这也是 Apache Spark 3.x 系列的第二个 release。开发团队表示,为了让 Spark 更快、更方便使用以及更智能,Spark 3.1 对以下特性进行了扩展:

  • Python 可用性
  • ANSI SQL 合规性
  • 查询优化增强
  • 改进 Shuffle hash join
  • History Server 对结构化流数据的支持

下面简单介绍部分高级的新功能和改进。

Project Zen

Project Zen 启动于此版本,主要从以下三个方面改进了 PySpark 的可用性。

  • 更加 Python
  • 在 PySpark 中提供更好和更易用的可用性
  • 提供与其他 Python 库更好的互操作性

ANSI SQL 合规性

该版本增加了针对 ANSI SQL 合规性的额外改进,有助于简化从传统数据仓库系统到 Spark 的工作负载迁移。

性能

Catalyst 是用于优化大多数 Spark 应用的查询编译器。在 Databricks 中,每天有数十亿次查询被优化和执行。此版本增强了查询优化 (query optimization),以及提升查询处理 (query processing) 的速度。

流处理

Spark 是构建分布式流处理应用程序的最佳平台。每天有超过 10 万亿条记录在 Databricks 上使用 structured streaming 进行处理。此版本增强了 structured streaming 的监控能力、可用性和功能。

Spark 3.1 其他更新

除了上述这些新功能,此版本还关注可用性、稳定性和完善性,处理了约 1500 个工单。

Apache Spark 3.1 发布

更多内容查看 release 公告

下载地址:https://spark.apache.org/downloads.html


以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

数据压缩导论

数据压缩导论

萨尤得 / 2009-2 / 99.00元

《数据压缩导论(英文版·第3版)》是数据压缩方面的经典著作,介绍了各种类型的压缩模式。书中首先介绍了基本压缩方法(包括无损压缩和有损压缩)中涉及的数学知识,为常见的压缩形式打牢了信息论基础,然后从无损压缩体制开始,依次讲述了霍夫曼编码、算术编码以及字典编码技术等,对于有损压缩,还讨论了使用量化的模式,描述了标量、矢量以及微分编码和分形压缩技术,最后重点介绍了视频加密。《数据压缩导论(英文版·第3版......一起来看看 《数据压缩导论》 这本书的介绍吧!

在线进制转换器
在线进制转换器

各进制数互转换器

XML、JSON 在线转换
XML、JSON 在线转换

在线XML、JSON转换工具

RGB HSV 转换
RGB HSV 转换

RGB HSV 互转工具