一、单选
1、Spark 的四大组件下面哪个不是 ( D )
A、Spark Streaming
B、Mlib
C、Graphx
D、Spark R
2、Spark 支持的分布式部署方式中哪个是错误的==( D )==
A、standalone
B、spark on mesos
C、spark on YARN
D、Spark on local
3、Spark Job 默认的调度模式 ( A )
A、FIFO
B、FAIR
C、无
D、运行时指定
4、下列不属于Spark中driver的作用的是==( D )==
A、执行main方法
B、把用户程序转化为task
C、协调任务的调度
D、负责运行组成 Spark 应用的任务
5、下面哪个不是 RDD 的特点==( C )==
A、可分区
B、可序列化
C、可修改
D、可持久化
6、下面哪个端口不是 spark 自带服务的端口==( C )==
A、8080
B、4040
C、8090
D、18080
7、哪个不是本地模式运行的条件==( D )==
A、spark.localExecution.enabled=true
B、显式指定本地运行
C、finalStage 无父 Stage
D、partition默认值
8、sc.parallelize([(1,2),(1,3),(2,3),(2,4),(3,1)].reduceByKey(lambda x,y : x +y).count().collect”操作中会产生==( B )==个stage
A、1
B、2
C、3
D、4
9、关于广播变量,下面哪个是错误的==( D )==
A、任何函数调用
B、是只读的
C、存储在各个节点
D、存储在磁盘或 HDFS
10、关于累加器,下面哪个是错误的 ( D )
A、支持加法
B、支持数值类型
C、可并行
D、不支持自定义类型
11、以下哪个操作可能会产生大量小文件==( C )==
A、mapper数较多的map-only任务
B、reduer数较多的任务
C、从海量数据中过滤出符合条件的少量数据
二、多选
1、在当下比较流行的分布式数据处理平台 Spark 中,有一些常用的高阶算子,比如说 flatMap, filter, groupByKey等等;它们中的某些算子会触发shuffle操作,所谓shuffle,粗略的可以理解为要处理的数据集的内部分区需要进行重排,而不是原地计算。下面哪个算子会引起shuffle ( CD )
A、map
B、count
C、sortByKey
D、join