学习 Spark 2(二):RDD 创建

栏目: 编程工具 · 发布时间: 7年前

内容简介:学习 Spark 2(二):RDD 创建

创建

内存

通过调用 sc.parallelize 方法,可以将 Driver 内存中的序列(Scala Seq)并行化为 RDD

val data = Seq(1, 2, 3, 4, 5, 6)  
val rdd1 = sc.parallelize(data)  
val rdd2 = sc.parallelize(data, 2) // 指定2个分区

文件系统

支持的文件系统:

  • 本地( 注意:是 Worker 本地文件系统,不是 Driver 本地文件系统 ) file://
  • HDFS hdfs://

支持的文件格式:

SparkContext.textFile

  • 按行读取文本文件
  • 支持读取目录、压缩文件
  • 路径支持通配符
  • 多个路径使用逗号分隔

通配符支持正则表达式如下:

  • ? 匹配一个字符
    • 匹配零到多个字符
  • [abc] 匹配字符集 {a,b,c} 中一个字符
  • [a-b] 匹配字符区间 {a...b} 中一个字符
  • [^a] 匹配不是字符集或字符区间 {a} 中一个字符
  • {ab,cd} 匹配字符串集 {ab,cd} 中一个字符串
// 读取路径下所有 JSON 文件
val rdd = sc.textFile("/data/user/*.json")

SparkContext.wholeTextFiles

  • 按文件读取目录,返回 PairRDD,键为文件名 值为文件内容

以上所述就是小编给大家介绍的《学习 Spark 2(二):RDD 创建》,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对 码农网 的支持!

查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

孵化Twitter

孵化Twitter

[美]尼克·比尔顿(Nick Bilton) / 欧常智、张宇、单旖 / 浙江人民出版社 / 2014-1 / 49.90元

一个在挣扎中生存的博客平台Odeo,一小撮龙蛇混杂的无政府主义者员工,经历了怎样的涅槃,摇身一变,成为纽交所最闪耀的上市企业Twitter? 一个野心勃勃的农场小男孩,一个满身纹身的“无名氏“,一个爱开玩笑的外交家,一位害羞而又充满活力的极客,这四位各有特色的创始人如何从兢兢业业、每日劳作的工程师,成为了登上杂志封面、奥普拉秀和每日秀的富裕名人?而在Twitter日益茁壮成长的过程中,他们又......一起来看看 《孵化Twitter》 这本书的介绍吧!

HTML 压缩/解压工具
HTML 压缩/解压工具

在线压缩/解压 HTML 代码

CSS 压缩/解压工具
CSS 压缩/解压工具

在线压缩/解压 CSS 代码

MD5 加密
MD5 加密

MD5 加密工具