Hadoop是什么?
1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
2)主要解决,海量数据的存储和海量数据的分析计算问题。
3)广义上来说, Hadoop 通常是指一个更广泛的概念 —— Hadoop 生态圈 。
Hadoop的优势有哪些?
1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元
素或存储出现故障,也不会导致数据的丢失。
2 )高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
3)高效性:在 MapReduce 的思想下, Hadoop 是并行工作的,以加快任务处
理速度。
4 )高容错性:能够自动将失败的任务重新分配。
历代Hadoop的区别
Hadoop重要的框架组成部分
1.Hadoop Distributed File System
分布式文件系统简称HDFS
1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、 文件权限),以及每个文件的块列表和块所在的DataNode等。
2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。
2.Yet Another Resource Negotiator
资源协调者,资源调度分配,简称YARN
1)ResourceManager(RM):整个集群资源(内存、CPU等)的老大
2)NodeManager(N M):单个节点服务器资源老大
3)ApplicationMaster(AM):单个任务运行的老大
4)Container:容器,相当一台独立的服务器,里面封装了 任务运行所需要的资源, 如内存、 CPU 、磁盘、网络等 。
3.MapReduce
1)Map 阶段并行处理输入数据
2)Reduce 阶段对 Map 结果进行汇总
完全分布安装(三台)
前提条件,必须配备jdk环境(需要先卸载原有的环境),防火墙关闭,ssh免密登录
关闭防火墙命令:systemctl stop firewalld 防止开机自启:systemctl distable firewalld.service
配置主机名称映射hosts文件
下载解压到路径/opt/apps修改名称hadoop添加路径
这里我把握的路径展示出来
source /etc/profile生效
集群规划
配置核心文件
在/opt/apps/hadoop/etc/hadoop 下vim core-site.xml
vim hdfs-site.xml
vim yarn-site.xml
vim mapred-site.xml
workers
这里需要对.sh文件添加配置,以上环境变量中已经介绍
第一次启动集群需要格式化(初始化只能初始化一次,如果集群在运行过程中报错,需要重新格式化 NameNode 的话,一定要先停止 namenode 和 datanode 进程,并且要删除所有机器的 data 和 logs 目录,然后再进行格式化)
hdfs namenode -format
然后就可正常启动了
在sbin下./start-sll.sh