0
点赞
收藏
分享

微信扫一扫

大数据选择题牛刀小练4


大数据选择题牛刀小练4

1、关于HDFS安全模式说法正确的是?()

在安全模式下只能读不能写

2、已知数组trans_cnt[1,2,3,4],以下哪一个表达式是求数组的元素数量:

size(trans_cnt)

Hive官网描述,size(Array) returns the number of elements in the array type.

length() 获取字符串长度

size() 获取泛型集合元素个数

3、Spark的四大组件

SQL and DataFrames

Spark Streaming

MLlib (machine learning)

GraphX (graph)

4、关于K均值和DBSCAN的比较,以下说法正确的是()

K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念

K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇。

K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇

聚类分为:基于划分、层次、密度、图形和模型五大类;

均值聚类k-means是基于划分的聚类, DBSCAN是基于密度的聚类。区别为:

k-means需要指定聚类簇数k,并且且初始聚类中心对聚类影响很大。k-means把任何点都归到了某一个类,对异常点比较敏感。DBSCAN能剔除噪声,需要指定邻域距离阈值eps和样本个数阈值MinPts,可以自动确定簇个数。

K均值和DBSCAN都是将每个对象指派到单个簇的划分聚类算法,但是K均值一般聚类所有对象,而DBSCAN丢弃被它识别为噪声的对象。

K均值很难处理非球形的簇和不同大小的簇。DBSCAN可以处理不同大小或形状的簇,并且不太受噪声和离群点的影响。当簇具有很不相同的密度时,两种算法的性能都很差。

K均值只能用于具有明确定义的质心(比如均值或中位数)的数据。DBSCAN要求密度定义(基于传统的欧几里得密度概念)对于数据是有意义的。

K均值算法的时间复杂度是O(m),而DBSCAN的时间复杂度是O(m^2)。

DBSCAN多次运行产生相同的结果,而K均值通常使用随机初始化质心,不会产生相同的结果。

K均值和DBSCAN都寻找使用所有属性的簇,即它们都不寻找可能只涉及某个属性子集的簇。

K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇。

K均值可以用于稀疏的高维数据,如文档数据。DBSCAN通常在这类数据上的性能很差,因为对于高维数据,传统的欧几里得密度定义不能很好处理它们。

5、四种类型的数据节点 Znode

PERSISTENT-持久节点

EPHEMERAL-临时节点

PERSISTENT_SEQUENTIAL-持久顺序节点

EPHEMERAL_SEQUENTIAL-临时顺序节点

1)、PERSISTENT-持久节点

除非手动删除,否则节点一直存在于 Zookeeper 上

2)、EPHEMERAL-临时节点

临时节点的生命周期与客户端会话绑定,一旦客户端会话失效(客户端与

zookeeper 连接断开不一定会话失效),那么这个客户端创建的所有临时节点都

会被移除。

3)、PERSISTENT_SEQUENTIAL-持久顺序节点

基本特性同持久节点,只是增加了顺序属性,节点名后边会追加一个由父节点维

护的自增整型数字。

4)、EPHEMERAL_SEQUENTIAL-临时顺序节点

基本特性同临时节点,增加了顺序属性,节点名后边会追加一个由父节点维护的

自增整型数字。

6、下面关于使用hive的描述中不正确的是?

hive的表一共有两种类型,内部表和外部表

总体上Hive有四种表:外部表,内部表(管理表),分区表,桶表。

Hive分区分桶

hive描述正确的是

hive中的join查询只支持等值链接,不支持非等值连接

hive默认仓库路径为/user/hive/warehouse/

hive支持数据删除和修改



举报

相关推荐

0 条评论