Spark (3) 兩個 RDDs 的集合轉換

1. union:

兩個 RDDs 的聯集。

val a = sc.parallelize(List(1,2,3))
val b = sc.parallelize(List(3,4,5))
a.union(b).collect
res0: Array[Int] = Array(1, 2, 3, 3, 4, 5)

2. intersection:

兩個 RDDs 的交集。

a.intersection(b).collect
res1: Array[Int] = Array(3)

3. subtract:

兩個 RDDs 的差級,下面的例子是 a 差級 b。

a.subtract(b).collect
res2: Array[Int] = Array(1, 2)

4. cartesian:

將 a, b 中的元素對應 ,形成 Array of tuples。

a.cartesian(b).collect
res3: Array[(Int, Int)] = Array((1,3), (1,4), (1,5), (2,3), (2,4), (2,5), (3,3), (3,4), (3,5))

留言

熱門文章