大数据—Spark

一、单选

1、Spark 的四大组件下面哪个不是（ D ）

A、Spark Streaming
B、Mlib
C、Graphx
D、Spark R

2、Spark 支持的分布式部署方式中哪个是错误的==（ D ）==

A、standalone
B、spark on mesos
C、spark on YARN
D、Spark on local

3、Spark Job 默认的调度模式（ A ）

A、FIFO
B、FAIR
C、无
D、运行时指定

4、下列不属于Spark中driver的作用的是==（ D ）==

A、执行main方法
B、把用户程序转化为task
C、协调任务的调度
D、负责运行组成 Spark 应用的任务

5、下面哪个不是 RDD 的特点==（ C ）==

A、可分区
B、可序列化
C、可修改
D、可持久化

6、下面哪个端口不是 spark 自带服务的端口==（ C ）==

A、8080
B、4040
C、8090
D、18080

7、哪个不是本地模式运行的条件==（ D ）==

A、spark.localExecution.enabled=true
B、显式指定本地运行
C、finalStage 无父 Stage
D、partition默认值

8、sc.parallelize（[(1,2),(1,3),(2,3),(2,4),(3,1)].reduceByKey（lambda x,y : x +y）.count().collect”操作中会产生==（ B ）==个stage

A、1
B、2
C、3
D、4

9、关于广播变量，下面哪个是错误的==（ D ）==

A、任何函数调用
B、是只读的
C、存储在各个节点
D、存储在磁盘或 HDFS

10、关于累加器，下面哪个是错误的（ D ）

A、支持加法
B、支持数值类型
C、可并行
D、不支持自定义类型

11、以下哪个操作可能会产生大量小文件==（ C ）==

A、mapper数较多的map-only任务
B、reduer数较多的任务
C、从海量数据中过滤出符合条件的少量数据

二、多选

1、在当下比较流行的分布式数据处理平台 Spark 中，有一些常用的高阶算子，比如说 flatMap, filter, groupByKey等等；它们中的某些算子会触发shuffle操作，所谓shuffle，粗略的可以理解为要处理的数据集的内部分区需要进行重排，而不是原地计算。下面哪个算子会引起shuffle （ CD ）

A、map
B、count
C、sortByKey
D、join

0 条评论