学习 Spark 2(五):RDD 缓存

栏目: 编程工具 · 发布时间: 8年前

内容简介:学习 Spark 2(五):RDD 缓存

RDD 是惰性求值的

计算过程中,多次使用同一组数据时,通过调用 RDD.cacheRDD.persist 对 RDD 进行缓存持久哈,可以避免重复计算

当持久化一个 RDD 时,计算出 RDD 的节点会分别保存它们所求出的分区数据

出于不同的目的,可以选择不同的持久化级别:

注: RDD.cacheRDD.persist(StorageLevel.MEMORY_ONLY) 的简化,即把数据存储到内存中

Storage Level 说明
MEMORY_ONLY 存储未序列化的 Java 对象到 JVM。内存不足,则未缓存分区每次将重新计算。
MEMORY_AND_DISK 存储未序列化的 Java 对象到 JVM。内存不足,则溢写到磁盘上。
MEMORY_ONLY_SER 序列化数据的 MEMORY_ONLY
MEMORY_AND_DISK_SER 序列化数据的 MEMORY_AND_DISK
DISK_ONLY 存储数据到硬盘
_2 复制数据的一份副本
OFF_HEAP 类似 MEMORY_ONLY_SER,但是存储数据到堆外内存

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Wireshark网络分析实战

Wireshark网络分析实战

[以色列 Yoram Orzach / 古宏霞、孙余强 / 人民邮电出版社 / 2015-1 / 79.00元

本书采用步骤式为读者讲解了一些使用Wireshark来解决网络实际问题的技巧。 本书共分为14章,其内容涵盖了Wireshark的基础知识,抓包过滤器的用法,显示过滤器的用法,基本/高级信息统计工具的用法,Expert Info工具的用法,Wiresahrk在Ethernet、LAN及无线LAN中的用法,ARP和IP故障分析,TCP/UDP故障分析,HTTP和DNS故障分析,企业网应用程序行......一起来看看 《Wireshark网络分析实战》 这本书的介绍吧!

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

在线进制转换器
在线进制转换器

各进制数互转换器

MD5 加密
MD5 加密

MD5 加密工具