1. 谈谈什么是Hadoop?
2. 谈谈 hadoop1 和 hadoop2 的区别?
3、什么是HDFS文件系统?
4、HDFS文件系统有什么特点?
5、HDFS默认数据块得大小是多少?为什么?
6、为什么HDFS不支持存储小文件?
7、 简单描述hdfs文件的读取流程?
说说文件的下载流程
8.我们在上传文件的时候namenode如何选取的datanode存储副本?有什么优势?
9.描述一下Namenode和secondarynamenode的工作机制
10.fsimage和edits文件分别指的是什么?存的是什么?
11.默认情况下进行ckeckpoint(合并镜像及编辑日志)的触发条件是什么?
12.工作中假如你的namenode发生故障,导致namenode中的元数据丢失,如何恢复数据?
1.修改hdfs-site.xml中的
<property>
<name>dfs.namenode.checkpoint.period</name>
<value>120</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/opt/module/hadoop-2.7.2/data/tmp/dfs/name</value>
</property>
13.什么情况下集群会进入安全模式?安全模式下集群有有什么限制?如何查看、进入、退出、等待安全模式
14.启动集群时,我们要对namenode进行格式化操作?为什么只能格式化一次
15.公司现在有4台服务器hadoop1、hadoop2、hadoop3、hadoop4 4台服务器,hadoop2和hadoop4配置相对较好,根据现有配置设计一个集群,并简单说说基本的配置流程?
16.启动集群的相关命令有哪些?
17.HDFS文件操作的命令有哪些?
18.配置集群过程中如果发现各台服务器的datanode启动后,过一段时间自动消失了,
查看原因发现datanode的集群clusterID=CID-9a578a40-2089-492b-9599-54dadbcd9849
而namenode的clusterID=CID-0b798a40-2089-492b-9599-54dadbcd9849,这时如果需要让集群正常工作,如何处理?
19. 请列出正常工作的Hadoop 集群中Hadoop 都分别需要启动哪些进程,它们的作用分别是什么? 请尽量列的详细一些?
20. 现在为了满足公司业务需求,在原有hadoop集群的基础之上要求扩展两个节点(也可以说扩展两台服务器),该如何操作?
21. 公司现有100台服务器组成的集群,由于疫情期间业务骤减,现需要减少10台服务器,如何退役这些节点?有哪几种方式退役节点?
22. 刷新namenode的命令是什么? 刷新resourcemanager的命令是什么?
22. namenode是怎么确定datanode能够正常工作的?他们之间是怎么保持联系的?
23. 简要描述如何安装配置apache 的一个开源Hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好?
24. 简述Hadoop 的几个默认端口及其含义?
25 hadoop集群可以运行的3个模式是什么?
26 搭建完全分布式集群有哪些注意点?
27 通常情况下我们搭建集群时,需要自定义一些参数,需要修改哪些配置文件,列出文件名即可?
28 jps命令的作用?
29 datanode可以设置多目录存储数据吗?怎么实现?
30 是否可以在Windows上运行Hadoop?
31 hadoop有哪些发行版?
32 是否可以在不同集群之间复制文件? 如果是的话,怎么能做到这一点? (新特性)
33 你们公司用的hadoop的哪个版本?运行Hadoop需要什么平台和哪个Java版本?
34 当两个用户尝试访问HDFS中的同一文件并修改时会发生什么?
35、关于ssh协议中的免登录,下列理解错误的是( D )
36、下列描述错误的是( A )
37、下面描述正确的是( A )