101.阿里云DataWorks是数据上云下云的枢纽,致力于提供复杂网络环境下、丰富的 (B) 之间高速稳定的数据移动及同步能力。
 A:关系型数据库
 B:异构数据源
 C:NosQL
 D:非结构化存储
102.Logstash是一款开源的数据收集引擎,具有实时管道处理能力。Logslash数据处理流程由几部分组成。(ABC)
 A:Input
 B:Filter
 C:Output
 D:Kibana
103.阿里云的云计算提供了多种服务模式,其中基础设施使用的是©
 A:SaaS
 B:Paas
 C:laas
 D:全部本地布署
104.进行数据清洗时,针对于不同的情况和场景需要选择不同的方法,以下关于清洗内容的描述正确的是(ABC)
 A:缺失值处理是由于调查、编码和录入的误差,数据中可能存在一些缺失值,需要给予适当的处理
 B:异常值处理是指根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据
 C:数据类型转换是指数据类型不一致,影响到后续的数据处理分析环节,因此,需要明确每个字段的数据类型,并做统一处理
 D:数据中可能存在重复记录或重复字段(列),对于这些重复项目(行和列),只需要删除所有重复行
105.在大数据生态体系的数据处理中,有两种计算引擎MapReduce与Spark,两种计算引擎在数据处理的流程中有着本质区别,下面选项中关于这两种引擎说法正确的是?(BD)
 A:MapReduce做数据计算时,首先会从文件系统读取文件,后续为了提升计算效率,会将第一次读取的数据存入内存中,方便后续计算从内存中读取
 B:Spark做数据计算时,首先会从文件系统读取文件,后续为了提升计算效率,会将第一次读取的数据存入内存中,方便后续计算从内存中读取
 C:MapReduce跟Spark相比,处理速度更快
 D:MapReduce做数据迭代计算时,必须从文件系统中,不停的读取写入,以完成计算
106.Mahout是Apache Software Foundation(ASF)旗下的一个开源项目,提供一些可扩展的(B)领域经典算法的实现,旨在帮助开发人员更加方便快捷的实现算法,创建只能应用程序。
 A:人工智能
 B:机器学习
 C:云计算
 D:数据分析
107.临近年终,小明在制作年终总结PPT时,发现表格列属性由月份、行属性计划销售额和实际销售额组成不够美观,更不够直观,如果你是小明,你会怎么做(A)。
 A:插入柱状图
 B:插入散点图
 C:插入直方图
 D:插入瀑布图
108.阿里云QuickBI数据可视化分析平台提供了8种主要组件,比较、趋势、表格、指标、时序、空间、关系和(D)
 A:画布
 B:媒体
 C:素材
 D:分布
109.下列哪一项(D)不是机器学习深度学习领域常用的框架。
 A:tensorflow
 B:torch
 C:sklearn
 D:jupyter
110.MaxCompute的存储和计算独立扩展,支持企业将全部数据资产在一个平台上进行联动分析,消除数据孤岛;实时根据业务峰谷变化来分配资源。上述文字体现了MaxCompute在大数据处理与分析中的(A)作用?
 A:弹性能力与扩展型
 B:集成AI能力
 C:支持流式采集和近实时分析
 D:数据存储能力
111.HBase依赖 ( A ) 提供消息通信机制,在Master和RegionServers之间协调、通信和共享状态。
 A:Zookeeper
 B:Socket
 C:TCP/IP
 D:ActiveMQ
112.使用阿里云DataWorks进行实时数据同步时,在单表增量实时数据同步配置的步骤是(A)。
 A:创建单表实时同步节点一配置资源组一配置单表实时同步任务一提交并发布实时同步任务
 B:创建单表实时同步节点一配置单表实时同步任务一配置资源组一提交并发布实时同步任务
 C:创建单表实时同步节点一配置资源组一提交并发布实时同步任务一配置单表实时同步任务
 D:创建单表实时同步节点一提交并发布实时同步任务一配置资源组一配置单表实时同步任务
113.Flume是一个分布式、高可靠、高可用的服务,它是用于分布式的什么框架?(B)
 A:网络数据收集
 B:日志收集
 C:企业业务数据收集
 D:传感器数据收集
114.K-Means是典型的基于划分的聚类算法,下列描述基于划分的概念正确的是?(C)
 A:一种基于网格的具有多分辨率的聚类方法
 B:通过稀疏区域来刻分高密度区域以发现明显的聚类和孤立点,主要用于空间型数据的聚类
 C:通过构造一个迭代过程来优化目标函数,当优化到目标函数的最小值或极小值时,可以得到数据集的一些不相交的子集,通常认为此时得到的每个子集就是一个聚类
 D:使用一个距离矩阵作为输入,经过聚类后得到一个反映该数据集分布状况的聚类层次结构图
115.下列关于Hadoop生态组件Flume的概念,说法正确的是?(A)
 A:是Apache下的一个项目,支持在日志系统中定制各类数据发送方,用于收集数据
 B:是一种支持Apache Hadoop集群的安装、部署、配置和管理的工具
 C:是一种基于Web的工具,支持Apache Hadoop集群的安装、部署、配置和管理
 D:是一个用于在Hadoop和关系数据库之间传输数据的工具
116.( C )指对本地资源库中,已下载的网页数据进行增量式更新,运行过程中只爬行新产生页面或内容发生变化的网页,需要对网页的重要性进行排序。
 A:通用网络爬虫
 B:聚集网络爬虫
 C:增量式网络爬虫
 D:深层网络爬虫
117.Kafka是一种高吞吐量的分布式发布订阅消息系统,一般对日志数据和实时数据进行处理,它的优点是(D)。
 A:支持一个生产者
 B:支持一个消费者
 C:不支持分布式
 D:支持broker的横向扩展
118.在Hadoop中,HDFS组件的DataNode节点有什么作用?(B)
 A:支配其它节点
 B:保存数据的作用
 C:管理其它节点
 D:降低数据丢失的风险
119.下列关于回归分析的用法,描述不正确的是?(D)
 A:在大数据分析中,回归分析常用于预测分析,主要研究自变量与因变量的关系
 B:回归分析指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法
 C:回归分析就是通过一定变量或一些变量的变化解释另一变量的变化
 D:按因变量的多少,回归分析都只有简单回归分析
120.为大数据提供了技术基础,大数据为其提供用武之地。上述是哪项技术?(C)
 A:内存计算机
 B:网络计算机
 C:云计算
 D:并行计算










