Spark 2.4 发布，大规模数据处理统一分析引擎

栏目: 软件资讯 · 发布时间: 7年前

内容简介：Spark 2.4 发布了，Apache Spark 是用于大规模数据处理的统一分析引擎，它是一种与 Hadoop 相似的开源集群计算环境，Spark 启用了内存分布数据集，除了能够提供交互式查询外，还可以优化迭代工作负载。尽管创建 ...

Spark 2.4 发布了，Apache Spark 是用于大规模数据处理的统一分析引擎，它是一种与 Hadoop 相似的开源集群计算环境，Spark 启用了内存分布数据集，除了能够提供交互式查询外，还可以优化迭代工作负载。尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoo 文件系统中并行运行。

此版本继续关注可用性、稳定性和性能优化，同时解决了大约 1100 个 tickets。主要更新如下：

增加了屏障执行模式，以更好地与深度学习框架集成
引入 30 多个内置和更高阶函数，更轻松地处理复杂数据类型
改进 K8s 集成
实验性 Scala 2.12 支持

此外还有内置 Avro 数据源、图像数据源，灵活的流式接收器，在传输过程中消除 2GB 块大小限制，Pandas UDF 改进等。

详情查看发布公告。

下载地址：https://spark.apache.org/downloads.html

【声明】文章转载自：开源中国社区 [http://www.oschina.net]

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

释放潜能：平台型组织的进化路线图

穆胜 / 人民邮电出版社 / 2017-12 / 59.80元

传统的组织模式中，企业逃不出“员工动不起来”和“创新乏力”的宿命。互联网改变商业逻辑的同时也改变了组织逻辑。平台型组织是匹配互联网商业逻辑的组织模式，它赋予了基层员工更多的责权利，能够在需求侧灵敏获取用户刚需、在供给侧灵活整合各类资源、用“分好钱”的机制激活个体去整合各类资源满足用户刚需，形成供需之间的高效连接。打造平台型组织有两大主题：一是通过设计精巧的激励机制让每个人都能感受到市场的压力，......一起来看看《释放潜能：平台型组织的进化路线图》这本书的介绍吧!

码农工具

Spark 2.4 发布，大规模数据处理统一分析引擎

释放潜能：平台型组织的进化路线图

HTML 压缩/解压工具

URL 编码/解码

正则表达式在线测试