Spark RDD(一) RDD的创建和转化操作

RDD 有几个特点

不可变
容错
并行数据结构
内存中计算
数据分区和存放
丰富的操作函数

RDD 的操作行为可以分为两类：转换和行为。
转换是一个延迟操作，返回的结果是另外一个RDD。
行为是另一种操作，会触发转换逻辑。行为的结果一般是返回一个结果，或者把结果写到磁盘。

创建RDD 有3种方式：

(1) parallelize一个object

val stringList = Array(&quot;Spark is awesome&quot;,&quot;Spark is cool&quot;)
val stringRDD = spark.sparkContext.parallelize(stringList)

(2) 从存储系统创建

val fileRDD = spark.sparkContext.textFile(&quot;/tmp/data.txt&quot;)

(3) 从已有RDD创建

转换操作

map(func)

val allCapsRDD = stringRDD.map(line =&gt; line.toUpperCase)
allCapsRDD.collect().foreach(println)

自定义函数

def toUpperCase(line:String) : String = {  line.toUpperCase }
stringRDD.map(l =&gt; toUpperCase(l)).collect.foreach(println)

定义类case class

case class Contact(id:Long, name:String, email:String)
val contactData = Array(&quot;1#John Doe#jdoe@domain.com&quot;,&quot;2#Mary Jane#mjane@domain.com&quot;)
val contactDataRDD = spark.sparkContext.parallelize(contactData)
val contactRDD = contactDataRDD.map(l =&gt; {
     val contactArray = l.split(&quot;#&quot;)
     Contact(contactArray(0).toLong, contactArray(1), contactArray(2))
})
contactRDD.collect.foreach(println)

从已有的RDD

val stringLenRDD = stringRDD.map(l =&gt; l.length)
stringLenRDD.collect.foreach(println)

flatMap(func)

val wordRDD = stringRDD.flatMap(line =&gt; line.split(&quot; &quot;))
wordRDD.collect().foreach(println)

输出结果如下：

Spark
is
awesome
Spark
is
cool

map和flatMap的区别如下：

stringRDD.map(line =&gt; line.split(&quot; &quot;)).collect //map
stringRDD.flatMap(line =&gt; line.split(&quot; &quot;)).collect //flatMap

结果分别二维数组为

Array[Array[String]] = Array(Array(Spark, is, awesome), Array(Spark, is, cool))

和一维数组

Array[String] = Array(Spark, is, awesome, Spark, is, cool)

filter(func)

val awesomeLineRDD = stringRDD.filter(line =&gt; line.contains(&quot;awesome&quot;))
awesomeLineRDD.collect

mapPartitions(func): 其作用范围是partition，用于更耗时的操作，比如建立数据连接等，用于一次初始化整个partition。
mapPartitionsWithIndex(func)

union(OtherRDD)

val rdd1 = spark.sparkContext.parallelize(Array(1,2,3,4,5))
val rdd2 = spark.sparkContext.parallelize(Array(1,6,7,8))
val rdd3 = rdd1.union(rdd2)
rdd3.collect()

其结果：

Array[Int] = Array(1, 2, 3, 4, 5, 1, 6, 7, 8)

intersection(otherRDD)

val rdd1 = spark.sparkContext.parallelize(Array(&quot;One&quot;, &quot;Two&quot;, &quot;Three&quot;))
val rdd2 = spark.sparkContext.parallelize(Array(&quot;two&quot;,&quot;One&quot;,&quot;threed&quot;,&quot;One&quot;))
val rdd3 = rdd1.intersection(rdd2)
rdd3.collect()

其结果为：

Array[Int] = Array(One)

substract(otherRDD)

val words = spark.sparkContext.parallelize(List(&quot;The amazing thing about spark is that it is very simple to learn&quot;)).flatMap(l =&gt; l.split(&quot; &quot;)).map(w =&gt; w.toLowerCase)
val stopWords = spark.sparkContext.parallelize(List(&quot;the it is to that&quot;)).flatMap(l =&gt; l.split(&quot; &quot;))
val realWords = words.substract(stopWords)
realWords.collect()

其结果为：

Array[String] = Array(simple, learn, amazing, spark, about, very, thing)

distinct([numTasks])

val duplicateValueRDD = spark.sparkContext.parallelize(List(&quot;one&quot;, 1, &quot;two&quot;, 2, &quot;three&quot;, &quot;one&quot;, &quot;two&quot;, 1, 2)
duplicateValueRDD.distinct().collect

其结果输出为：

Array[Any] = Array(1, 2, two, one, three)

sample(withReplace, fraction, seed)

val numbers =  spark.sparkContext.parallelize(List(1,2,3,4,5,6,7,8,9,10), 2)
numbers.sample(true, 0.3).collect

其结果为：

Array[Int] = Array(1, 7, 7, 8)
Array[Int] = Array(1, 6, 6, 7, 8, 9, 10)

Spark RDD(一) RDD的创建和转化操作

Spark RDD(一) RDD的创建和转化操作

创建RDD 有3种方式：

转换操作

Be First to Comment

Leave a Reply Cancel reply