内容简介:学习 Spark 2(二):RDD 创建
创建
内存
通过调用 sc.parallelize
方法,可以将 Driver 内存中的序列(Scala Seq)并行化为 RDD
val data = Seq(1, 2, 3, 4, 5, 6) val rdd1 = sc.parallelize(data) val rdd2 = sc.parallelize(data, 2) // 指定2个分区
文件系统
支持的文件系统:
- 本地( 注意:是 Worker 本地文件系统,不是 Driver 本地文件系统 ) file://
- HDFS hdfs://
支持的文件格式:
SparkContext.textFile
- 按行读取文本文件
- 支持读取目录、压缩文件
- 路径支持通配符
- 多个路径使用逗号分隔
通配符支持正则表达式如下:
- ? 匹配一个字符
-
- 匹配零到多个字符
- [abc] 匹配字符集 {a,b,c} 中一个字符
- [a-b] 匹配字符区间 {a...b} 中一个字符
- [^a] 匹配不是字符集或字符区间 {a} 中一个字符
- {ab,cd} 匹配字符串集 {ab,cd} 中一个字符串
// 读取路径下所有 JSON 文件
val rdd = sc.textFile("/data/user/*.json")
SparkContext.wholeTextFiles
- 按文件读取目录,返回 PairRDD,键为文件名 值为文件内容
以上所述就是小编给大家介绍的《学习 Spark 2(二):RDD 创建》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!
猜你喜欢:- 学习 Spark 2(八):DataSet 创建
- Sphinx源码学习笔记(一):索引创建
- Python学习之路38-动态创建属性
- ECMAScript学习笔记(六)——对象的创建
- 微软收购深度学习初创公司Lobe 以帮助创建深度学习模型
- 使用 seed 命令创建模拟数据(学习笔记)
本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们。
Coding the Matrix
Philip N. Klein / Newtonian Press / 2013-7-26 / $35.00
An engaging introduction to vectors and matrices and the algorithms that operate on them, intended for the student who knows how to program. Mathematical concepts and computational problems are motiva......一起来看看 《Coding the Matrix》 这本书的介绍吧!