内容简介:学习 Spark 2(五):RDD 缓存
RDD 是惰性求值的
计算过程中,多次使用同一组数据时,通过调用 RDD.cache
或 RDD.persist
对 RDD 进行缓存持久哈,可以避免重复计算
当持久化一个 RDD 时,计算出 RDD 的节点会分别保存它们所求出的分区数据
出于不同的目的,可以选择不同的持久化级别:
注: RDD.cache
是 RDD.persist(StorageLevel.MEMORY_ONLY)
的简化,即把数据存储到内存中
| Storage Level | 说明 |
| MEMORY_ONLY | 存储未序列化的 Java 对象到 JVM。内存不足,则未缓存分区每次将重新计算。 |
| MEMORY_AND_DISK | 存储未序列化的 Java 对象到 JVM。内存不足,则溢写到磁盘上。 |
| MEMORY_ONLY_SER | 序列化数据的 MEMORY_ONLY |
| MEMORY_AND_DISK_SER | 序列化数据的 MEMORY_AND_DISK |
| DISK_ONLY | 存储数据到硬盘 |
| _2 | 复制数据的一份副本 |
| OFF_HEAP | 类似 MEMORY_ONLY_SER,但是存储数据到堆外内存 |
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网
猜你喜欢:- 网络学习笔记(三):HTTP缓存
- ELK学习实验020:ELK使用kafka缓存
- ELK学习实验019:ELK使用redis缓存
- Spring boot学习(八)Spring boot配置ehcache缓存框架
- 分布式缓存技术redis学习系列----深入理解Spring Redis的使用
- 深入云原生 AI:基于 Alluxio 数据缓存的大规模深度学习训练性能优化
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
机器学习实战:基于Scikit-Learn和TensorFlow
Aurélien Géron / 王静源、贾玮、边蕤、邱俊涛 / 机械工业出版社 / 2018-8 / 119.00
本书主要分为两个部分。第一部分为第1章到第8章,涵盖机器学习的基础理论知识和基本算法——从线性回归到随机森林等,帮助读者掌握Scikit-Learn的常用方法;第二部分为第9章到第16章,探讨深度学习和常用框架TensorFlow,一步一个脚印地带领读者使用TensorFlow搭建和训练深度神经网络,以及卷积神经网络。一起来看看 《机器学习实战:基于Scikit-Learn和TensorFlow》 这本书的介绍吧!