缓存Apache Spark RDD - 性能调优

栏目: 编程工具 · 发布时间: 5年前

内容简介：有时您需要多次处理RDD，而不是一次操作。这带来了一个主要问题...... Spark 确实总是会在磁盘上找到数据。但是你需要处理性能问题。RDD带有cache（）和persist（）方法，其中cache() = persist(StorageLevel.MEMORY_ONLY).将帮助我们将RDD保存到内存中，详细了解

有时您需要多次处理RDD，而不是一次操作。这带来了一个主要问题...... Spark 确实总是会在磁盘上找到数据。但是你需要处理性能问题。

RDD带有cache（）和persist（）方法，其中

cache() = persist(StorageLevel.MEMORY_ONLY).将帮助我们将RDD保存到内存中，详细了解其他选项。

让我们用简单的例子来测试它：

<b>import</b> org.apache.spark.storage.StorageLevel._;

val fileRDD = sc.textFile(<font>"/tests/yahoo_stocks.csv"</font><font>);

fileRDD.persist(MEMORY_ONLY);

System.out.println(</font><font>"Count of RDD (first run): "</font><font>+fileRDD.count());

System.out.println(</font><font>"Count of RDD (second run): "</font><font>+fileRDD.count());
</font>

(download the yahoo_stocks.csv from https://github.com/dmatrix/examples/blob/master/spark/hdp/data/yahoo_stocks.csv )

现在让我告诉你发生了什么：

如果没有持久化（MEMORY_ONLY）调用，首先调用fileRDD.count（）将触发从磁盘获取数据和计数行。fileRDD.count（）的第二次命中意味着同样的事情。

通过持久（MEMORY_ONLY）调用，我们告诉Spark：

做懒加载：

读取文件
将RDD缓存到内存中

现在第二次调用fileRDD.count（）应该比第一次调用快得多，因为它不会使用磁盘作为计算内容的源（当然，如果RDD适合内存）

让我们证明一下（运行）：

park-shell -i test14.scala

第一次

fileRDD.count() 运行输出：

18/02/17 22:21:10 INFO DAGScheduler: Job 0 finished: count at <console>:33,  
took 1,425495 s
Count of RDD (first run): 4794

第二次 fileRDD.count() 运行输出

18/02/17 22:21:11 INFO DAGScheduler: Job 1 finished: count at <console>:33,  
took 0,121783 s
Count of RDD (second run): 4794

看看第二个RDD动作的巨大加速。

以上所述就是小编给大家介绍的《缓存Apache Spark RDD - 性能调优》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

微信营销与运营一册通

何秀芳、葛存山 / 人民邮电出版社 / 2014-10

《微信营销与运营一册通》深入介绍了当今最为火热的话题——微信营销，内容全面、系统和深入。它基于微信的最新版本，从策略、技巧与案例等多角度详细解析了微信的营销与运营，所有内容都是行业经验的结晶，旨在为企业或个人运用微信提供有价值的参考。《微信营销与运营一册通》主要内容如下。 * 5大微信营销利器：书中介绍了5大微信营销利器，包括漂流瓶、二维码、LBS功能、朋友圈和公众平台等。 * 6大微......一起来看看《微信营销与运营一册通》这本书的介绍吧!

码农工具

缓存Apache Spark RDD - 性能调优

微信营销与运营一册通

HTML 压缩/解压工具

UNIX 时间戳转换

正则表达式在线测试