学习 Spark 2（二）：RDD 创建

内容简介：学习 Spark 2（二）：RDD 创建

创建

内存

通过调用 sc.parallelize 方法，可以将 Driver 内存中的序列（Scala Seq）并行化为 RDD

val data = Seq(1, 2, 3, 4, 5, 6)  
val rdd1 = sc.parallelize(data)  
val rdd2 = sc.parallelize(data, 2) // 指定2个分区

文件系统

支持的文件系统：

本地（注意：是 Worker 本地文件系统，不是 Driver 本地文件系统） file://
HDFS hdfs://

支持的文件格式：

SparkContext.textFile

按行读取文本文件
支持读取目录、压缩文件
路径支持通配符
多个路径使用逗号分隔

通配符支持正则表达式如下：

? 匹配一个字符
- 匹配零到多个字符
[abc] 匹配字符集 {a,b,c} 中一个字符
[a-b] 匹配字符区间 {a...b} 中一个字符
[^a] 匹配不是字符集或字符区间 {a} 中一个字符
{ab,cd} 匹配字符串集 {ab,cd} 中一个字符串

// 读取路径下所有 JSON 文件
val rdd = sc.textFile("/data/user/*.json")

SparkContext.wholeTextFiles

按文件读取目录，返回 PairRDD，键为文件名值为文件内容

以上所述就是小编给大家介绍的《学习 Spark 2（二）：RDD 创建》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

Algorithms to Live By

Brian Christian、Tom Griffiths / Henry Holt and Co. / 2016-4-19 / USD 30.00

A fascinating exploration of how insights from computer algorithms can be applied to our everyday lives, helping to solve common decision-making problems and illuminate the workings of the human mind ......一起来看看《Algorithms to Live By》这本书的介绍吧!

码农工具

RGB转16进制工具

RGB HEX 互转工具

随机密码生成器

多种字符组合密码

RGB HSV 转换

RGB HSV 互转工具