大数据选择题牛刀小练4-CFANZ编程社区

大数据选择题牛刀小练4

1、关于HDFS安全模式说法正确的是？（）

在安全模式下只能读不能写

2、已知数组trans_cnt[1,2,3,4]，以下哪一个表达式是求数组的元素数量：

size(trans_cnt)

Hive官网描述，size(Array) returns the number of elements in the array type.

length() 获取字符串长度

size() 获取泛型集合元素个数

3、Spark的四大组件

SQL and DataFrames

Spark Streaming

MLlib (machine learning)

GraphX (graph)

4、关于K均值和DBSCAN的比较，以下说法正确的是()

K均值使用簇的基于原型的概念，而DBSCAN使用基于密度的概念

K均值很难处理非球形的簇和不同大小的簇，DBSCAN可以处理不同大小和不同形状的簇。

K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇

聚类分为：基于划分、层次、密度、图形和模型五大类；

均值聚类k-means是基于划分的聚类， DBSCAN是基于密度的聚类。区别为：

k-means需要指定聚类簇数k，并且且初始聚类中心对聚类影响很大。k-means把任何点都归到了某一个类，对异常点比较敏感。DBSCAN能剔除噪声，需要指定邻域距离阈值eps和样本个数阈值MinPts，可以自动确定簇个数。

K均值和DBSCAN都是将每个对象指派到单个簇的划分聚类算法，但是K均值一般聚类所有对象，而DBSCAN丢弃被它识别为噪声的对象。

K均值很难处理非球形的簇和不同大小的簇。DBSCAN可以处理不同大小或形状的簇，并且不太受噪声和离群点的影响。当簇具有很不相同的密度时，两种算法的性能都很差。

K均值只能用于具有明确定义的质心（比如均值或中位数）的数据。DBSCAN要求密度定义（基于传统的欧几里得密度概念）对于数据是有意义的。

K均值算法的时间复杂度是O(m)，而DBSCAN的时间复杂度是O(m^2)。

DBSCAN多次运行产生相同的结果，而K均值通常使用随机初始化质心，不会产生相同的结果。

K均值和DBSCAN都寻找使用所有属性的簇，即它们都不寻找可能只涉及某个属性子集的簇。

K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇。

K均值可以用于稀疏的高维数据，如文档数据。DBSCAN通常在这类数据上的性能很差，因为对于高维数据，传统的欧几里得密度定义不能很好处理它们。

5、四种类型的数据节点 Znode

PERSISTENT-持久节点

EPHEMERAL-临时节点

PERSISTENT_SEQUENTIAL-持久顺序节点

EPHEMERAL_SEQUENTIAL-临时顺序节点

1）、PERSISTENT-持久节点

除非手动删除，否则节点一直存在于 Zookeeper 上

2）、EPHEMERAL-临时节点

临时节点的生命周期与客户端会话绑定，一旦客户端会话失效（客户端与

zookeeper 连接断开不一定会话失效），那么这个客户端创建的所有临时节点都

会被移除。

3）、PERSISTENT_SEQUENTIAL-持久顺序节点

基本特性同持久节点，只是增加了顺序属性，节点名后边会追加一个由父节点维

护的自增整型数字。

4）、EPHEMERAL_SEQUENTIAL-临时顺序节点

基本特性同临时节点，增加了顺序属性，节点名后边会追加一个由父节点维护的

自增整型数字。

6、下面关于使用hive的描述中不正确的是？

hive的表一共有两种类型，内部表和外部表

总体上Hive有四种表：外部表，内部表（管理表），分区表，桶表。

Hive分区分桶

hive描述正确的是

hive中的join查询只支持等值链接，不支持非等值连接

hive默认仓库路径为/user/hive/warehouse/

hive支持数据删除和修改