内容简介:学习 Spark 2(二):RDD 创建
创建
内存
通过调用 sc.parallelize
方法,可以将 Driver 内存中的序列(Scala Seq)并行化为 RDD
val data = Seq(1, 2, 3, 4, 5, 6) val rdd1 = sc.parallelize(data) val rdd2 = sc.parallelize(data, 2) // 指定2个分区
文件系统
支持的文件系统:
- 本地( 注意:是 Worker 本地文件系统,不是 Driver 本地文件系统 ) file://
- HDFS hdfs://
支持的文件格式:
SparkContext.textFile
- 按行读取文本文件
- 支持读取目录、压缩文件
- 路径支持通配符
- 多个路径使用逗号分隔
通配符支持正则表达式如下:
- ? 匹配一个字符
-
- 匹配零到多个字符
- [abc] 匹配字符集 {a,b,c} 中一个字符
- [a-b] 匹配字符区间 {a...b} 中一个字符
- [^a] 匹配不是字符集或字符区间 {a} 中一个字符
- {ab,cd} 匹配字符串集 {ab,cd} 中一个字符串
// 读取路径下所有 JSON 文件 val rdd = sc.textFile("/data/user/*.json")
SparkContext.wholeTextFiles
- 按文件读取目录,返回 PairRDD,键为文件名 值为文件内容
以上所述就是小编给大家介绍的《学习 Spark 2(二):RDD 创建》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- 学习 Spark 2(八):DataSet 创建
- Sphinx源码学习笔记(一):索引创建
- Python学习之路38-动态创建属性
- ECMAScript学习笔记(六)——对象的创建
- 微软收购深度学习初创公司Lobe 以帮助创建深度学习模型
- 使用 seed 命令创建模拟数据(学习笔记)
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
有限与无限的游戏
[美]詹姆斯·卡斯 / 马小悟、余倩 / 电子工业出版社 / 2013-10 / 35.00元
在这本书中,詹姆斯·卡斯向我们展示了世界上两种类型的「游戏」:「有限的游戏」和「无限的游戏」。 有限的游戏,其目的在于赢得胜利;无限的游戏,却旨在让游戏永远进行下去。有限的游戏在边界内玩,无限的游戏玩的就是边界。有限的游戏具有一个确定的开始和结束,拥有特定的赢家,规则的存在就是为了保证游戏会结束。无限的游戏既没有确定的开始和结束,也没有赢家,它的目的在于将更多的人带入到游戏本身中来,从而延续......一起来看看 《有限与无限的游戏》 这本书的介绍吧!