内容简介:Spark 2.4 发布了,Apache Spark 是用于大规模数据处理的统一分析引擎,它是一种与 Hadoop 相似的开源集群计算环境,Spark 启用了内存分布数据集,除了能够提供交互式查询外,还可以优化迭代工作负载。尽管创建 ...
Spark 2.4 发布了,Apache Spark 是用于大规模数据处理的统一分析引擎,它是一种与 Hadoop 相似的开源集群计算环境,Spark 启用了内存分布数据集,除了能够提供交互式查询外,还可以优化迭代工作负载。尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoo 文件系统中并行运行。
此版本继续关注可用性、稳定性和性能优化,同时解决了大约 1100 个 tickets。主要更新如下:
增加了屏障执行模式,以更好地与深度学习框架集成
引入 30 多个内置和更高阶函数,更轻松地处理复杂数据类型
改进 K8s 集成
实验性 Scala 2.12 支持
此外还有内置 Avro 数据源、图像数据源,灵活的流式接收器,在传输过程中消除 2GB 块大小限制,Pandas UDF 改进等。
详情查看发布公告。
下载地址:https://spark.apache.org/downloads.html
【声明】文章转载自:开源中国社区 [http://www.oschina.net]
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 微软开源大规模数据处理项目 Data Accelerator
- 微软开源大规模数据处理项目 Data Accelerator
- 深度学习中超大规模数据集的处理
- 一文详解大规模数据计算处理原理及操作重点
- Apache Fluo 1.2.0 发布,大规模数据集增量处理系统
- 直面算法霸权:大规模造福工具还是大规模杀伤性武器?
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
数据挖掘十大算法
(美)吴信东(Xindong Wu)、(美),库玛尔 ,(Vipin Kumar) / 李文波、吴素研 / 清华大学出版社 / 2013-5 / 39.00元
《世界著名计算机教材精选:数据挖掘十大算法》详细介绍了在实际中用途最广、影响最大的十种数据挖掘算法,这十种算法是数据挖掘领域的顶级专家进行投票筛选的,覆盖了分类、聚类、统计学习、关联分析和链接分析等重要的数据挖掘研究和发展主题。《世界著名计算机教材精选:数据挖掘十大算法》对每一种算法都进行了多个角度的深入剖析,包括算法历史、算法过程、算法特性、软件实现、前沿发展等,此外,在每章最后还给出了丰富的习......一起来看看 《数据挖掘十大算法》 这本书的介绍吧!