61.网络爬虫又称为网络机器人、网络蜘蛛,也可以称它是一种(A)工具
A:从互联网自动提取网页中数据的工具
B:一种病毒软件
C:沉迷于网络有网瘾的人的代称
D:以上都不对
62.下面哪一个是属于Spark的分布式图处理框架?(A)
A:GraphX
B:Dremel
C:Impala
D:DStream
63.通过日志规则设置,可以对业务系统中对用户的哪些数据进行采集?(C)
A:图片和评论
B:音频信息和视频信息
C:用户使用业务系统时操作(如浏览)日志数据以及操作过程中业务系统报错数据
D:数据库数据和文件数据
64.数据挖掘中的一种算法类型为聚类,数据挖掘中()是最常用的聚类算法。(C)
A:RNN算法
B:CNN算法
C:K-Means算法
D:FP-Growth算法
65.阿里的“淘宝小贷,通过对贷款客户、供应商、经营信用等全方位的评估,就可以在没有见面情况下给客户放款,这需要在海量的数据中判断客户的信用。在大数据应用中有效客户量或数据量,并不是数据越大这个值越高,而是反比。体现了大数据的(E)特征。
A:Volume规模性
B:Veracity的准确性
C:velocity高速性
D:Variety多样性
E:Value价值性
66.开源大数据开发平台E-MapReduce (简称EMR),是运行在阿里云平台上的一种 ©的系统解决方案。
A:大数据集成
B:大数据采集
C:大数据处理
D:大数据挖掘
67.数据采集全面性是指在根据某一需求分析数据时,需要采集的数据©、数据 (D),才能准确进行分析。
A:简单精确
B:类型相同
C:量足够多
D:面涉及广
68.Hive的SQL执行流程依次为Parser、Semantic Analyzer、Logical Plan Generator、LogicalOptimizer、Physical Plan Generator、Physical Plan Optimizer。其中步骤Parser的作用是?(A)
A:将SQL转换成抽象语法树
B:将抽象语法树转换成查询块
C:将查询块转换成逻辑查询计划
D:重新逻辑查询计划
69.在数据可视化的设计步骤中,数据核对及处理,属于数据可视化设计的哪一个步骤?(A)
A:数据准备
B:主题确认
C:图表选择
D:数据可视化
70.在大数据开发的流程中,以下哪个选项符合数据挖掘的概念?(B)
A:数据分析就是数据挖掘,只是说法不一样,两者在广义与狭义中,表达的都是同一个意思
B:从大量的数据中通过算法搜索隐藏于其中信息的过程
C:将异构数据的数据汇集在一起
D:从大量的数据中别除含噪声的数据
71.Hive的SQL执行流程依次为Parser、Semantic Analyzer、Logical Plan Generator、LogicalOptimizer、Physical Plan Generator、Physical Plan Optimizer。其中步骤Parser的作用是?(A)
A:将SQL转换成抽象语法树
B:将抽象语法树转换成查询块
C:将查询块转换成逻辑查询计划
D:重新逻辑查询计划
72.数据采集(DAQ)别名是什么?(B)
A:数据存储
B:数据获取
C:数据分析
D:数据库数据
73.在大数据开发的流程中,数据分析主要是发现隐藏在数据中的价值。下列关于数据分析的概念,描述正确的是?(C)
A:常用的数据分析方法不包括传统的分析算法
B:数据分析主要使用的是机器学习算法
C:数据分析是根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用
D:数据分析就是数据挖掘,只是说法不一样,两者在广义与狭义中,表达的都是同一个意思
74.数据采集中,采集的数据分为离线数据和实时数据,其中属于实时数据的有©
A:数据库数据T+1采集
B:业务数据每小时采集并分析
C:传感器设备数据通过datahub传输
D:网络数据定时爬取
75.随看大数据时代的发展,Hadoop生态圈组件越来越丰富。关于Hadoop生态组件ZooKeeper,描述正确(A)
A:用于分布式应用的高性能协调服务
B:是一种支持Apache Hadoop集昨的安装、部署、配置和管理的工具
C:是一种用于在HDFS和RDMS之问传输数据的工具
D:是一个基于工作流引整的开源框架,提供对Hadoop、MapReduce和Pig Jobs的任务调度与协调
E:是大数据集日志收集的框架
76.在数据可视化的设计步骤中,明确业务需求属于数据可视化设计的哪一个步骤?(B)
A:数据准备
B:主题确认
C:图表选择
D:数据可视化
77.数据可视化指使用点、线、图表、统计图或信息图表等工具对数据进行编码,在视觉上传达定量信息。以下哪一选项是数据可视化的设计步骤?(B)
A:数据准备一主题确认一图表选择一数据可视化
B:主题确认一数据准备一图表选择一数据可视化
C:主题确认一图表选择一数据准备一数据可视化
D:数据准备一图表选择一主题确认一数据可视化
78.使用Datav进行数据可视化开发的过程中,需要了解Datav的操作流程,下面那一项属于DataV正确的操作流程?(A)
A:准备工作一创建可视化应用一添加并配置可视化组件一调整组件图层位置一预览并发布可视化应用
B:准备工作一创建可视化应用一调整组件图层位置一添加并配置可视化组件一预览并发布可视化应用
C:添加并配置可视化组件一准备工作一调整组件图层位置一预并发布可视化应用
D:准备工作一调整组件图层位置一创建可视化应用一添加井配置可视化组件一预览并发布可视化应用
79.数据的种类和来源多样化。包活结构化、半结构化和非结构化教据,具休表现为网络日志、音顿.视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。体现了大数据的(D)特征。
A:Volume规模性
B:Veracity准确性
C:Velocity高速性
D:Variety多样性
E:Value价值性
80.HBase框架是Hadoop生态的一个重要组成部分,主完成海量数据的存储与线上业务的实时查询,HBase框架数据存储依赖以下哪个组件?(B)
A:NTFS
B:HDFS
C:GFS
D:Memory