Spark中的常见算子-CFANZ编程社区

1、触发算子

1）count

2) foreach算子

3）saveAsTextFile算子

4）first 算子

5）take 算子

6）collect 算子 --收集，类似于吹哨

7） reduce算子 --规约，聚集

# top N
    list01 = [1, 5, 2, 6, 9, 10, 4, 3, 8, 7]
    rdd = sc.parallelize(list01)
    # top 是一个触发算子，不返回rdd类型
    # 为什么 有时 用foreach打印，有时用print 打印
    # 对于转换算子的结果，还是rdd,对于rdd 使用foreach  1) rdd 循环打印  2) foreach 是触发算子
    # 对于触发算子的结果，一般不返回rdd,而是一个正常的返回值，使用print 打印即可
    print(rdd.top(3))
    # takeOrdered 也是一个触发算子，返回排序之后的最小的几个值
    print(rdd.takeOrdered(3))

8）top算子：求排好序之后的最大的几个值

9）takeOrdered ：求排好序之后的最小的几个值

10）collectAsMap 算子

11）foreachPartition 算子

12）max 算子

13）min 算子

14）mean 算子

15）sum 算子

2、转换算子

1）map算子

举例说明：

# 需求：计算每个元素的立方
# 原始数据 1 2 3 4 5 6
# 目标结果 1 8 27 64 125 216

list01 = [1,2,3,4,5,6]
	listRdd = sc.parallelize(list01)
	mapRdd = listRdd.map(lambda x: math.pow(x,3))
	mapRdd.foreach(lambda x: print(x))

2) flatMap算子

3）filter算子

4）union算子

5) distinct算子

6）分组聚合算子：groupByKey、 reduceByKey

分类：xxxByKey算子，只有KV类型的RDD才能调用

7）排序算子：sortBy、sortByKey

sortBy算子：

sortByKey算子:

8）重分区算子：repartition、coalesce

repartition算子：

coalesce算子：

9）keys算子：获取所有的key

10）values算子 : 获取所有rdd中的value

11）mapValues算子:

将所有的value拿到之后进行map转换，转换后还是元组，只是元组中的value,进行了变化

12）join方面的算子：

join / fullOuterJoin / leftOuterJoin / rightOuterJoin