0
点赞
收藏
分享

微信扫一扫

大数据—Spark

快乐小码农 2022-02-22 阅读 75

一、单选

1、Spark 的四大组件下面哪个不是 ( D )

A、Spark Streaming
B、Mlib
C、Graphx
D、Spark R

2、Spark 支持的分布式部署方式中哪个是错误的==( D )==

A、standalone
B、spark on mesos
C、spark on YARN
D、Spark on local

3、Spark Job 默认的调度模式 ( A )

A、FIFO
B、FAIR
C、无
D、运行时指定

4、下列不属于Spark中driver的作用的是==( D )==

A、执行main方法
B、把用户程序转化为task
C、协调任务的调度
D、负责运行组成 Spark 应用的任务

5、下面哪个不是 RDD 的特点==( C )==

A、可分区
B、可序列化
C、可修改
D、可持久化

6、下面哪个端口不是 spark 自带服务的端口==( C )==

A、8080
B、4040
C、8090
D、18080

7、哪个不是本地模式运行的条件==( D )==

A、spark.localExecution.enabled=true
B、显式指定本地运行
C、finalStage 无父 Stage
D、partition默认值

8、sc.parallelize([(1,2),(1,3),(2,3),(2,4),(3,1)].reduceByKey(lambda x,y : x +y).count().collect”操作中会产生==( B )==个stage

A、1
B、2
C、3
D、4

9、关于广播变量,下面哪个是错误的==( D )==

A、任何函数调用
B、是只读的
C、存储在各个节点
D、存储在磁盘或 HDFS

10、关于累加器,下面哪个是错误的 ( D )

A、支持加法
B、支持数值类型
C、可并行
D、不支持自定义类型

11、以下哪个操作可能会产生大量小文件==( C )==

A、mapper数较多的map-only任务
B、reduer数较多的任务
C、从海量数据中过滤出符合条件的少量数据

二、多选

1、在当下比较流行的分布式数据处理平台 Spark 中,有一些常用的高阶算子,比如说 flatMap, filter, groupByKey等等;它们中的某些算子会触发shuffle操作,所谓shuffle,粗略的可以理解为要处理的数据集的内部分区需要进行重排,而不是原地计算。下面哪个算子会引起shuffle ( CD )

A、map
B、count
C、sortByKey
D、join

举报

相关推荐

0 条评论