0
点赞
收藏
分享

微信扫一扫

Hadoop的完全分布式(基本环境已经搭建好,主要是针对配置文件的解析)

RJ_Hwang 2022-04-22 阅读 99

Hadoop是什么?

        1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构

        2)主要解决,海量数据的存储和海量数据的分析计算问题。

        3)广义上来说, Hadoop 通常是指一个更广泛的概念 —— Hadoop 生态圈

Hadoop的优势有哪些?

        1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元

素或存储出现故障,也不会导致数据的丢失。

        2 )高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。

        

        3)高效性:在 MapReduce 的思想下, Hadoop 是并行工作的,以加快任务处

理速度。

        4 )高容错性:能够自动将失败的任务重新分配。

历代Hadoop的区别

 Hadoop重要的框架组成部分

        1.Hadoop Distributed File System

                分布式文件系统简称HDFS

                        1)NameNodenn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、 文件权限),以及每个文件的块列表块所在的DataNode等。

                        2DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和

                        3Secondary NameNode(2nn)每隔一段时间对NameNode元数据备份

        2.Yet Another Resource Negotiator

                资源协调者,资源调度分配,简称YARN

                        1)ResourceManagerRM):整个集群资源(内存、CPU等)的老大

                        2)NodeManager(N M):单个节点服务器资源老大

                        3ApplicationMasterAM):单个任务运行的老大

                        4)Container:容器,相当一台独立的服务器,里面封装了 任务运行所需要的资源, 如内存、 CPU 、磁盘、网络等

          3.MapReduce

                        1)Map 阶段并行处理输入数据

                        2)Reduce 阶段对 Map 结果进行汇总

完全分布安装(三台)

                前提条件,必须配备jdk环境(需要先卸载原有的环境),防火墙关闭,ssh免密登录

                关闭防火墙命令:systemctl stop firewalld  防止开机自启:systemctl distable firewalld.service

                配置主机名称映射hosts文件

 下载解压到路径/opt/apps修改名称hadoop添加路径

这里我把握的路径展示出来

source /etc/profile生效 

集群规划

 配置核心文件

在/opt/apps/hadoop/etc/hadoop   下vim core-site.xml

 

vim hdfs-site.xml

vim yarn-site.xml

 vim mapred-site.xml

 

 workers

 这里需要对.sh文件添加配置,以上环境变量中已经介绍

第一次启动集群需要格式化(初始化只能初始化一次,如果集群在运行过程中报错,需要重新格式化 NameNode 的话,一定要先停止 namenode 和 datanode 进程,并且要删除所有机器的 data 和 logs 目录,然后再进行格式化

hdfs namenode -format

然后就可正常启动了

在sbin下./start-sll.sh

        

举报

相关推荐

0 条评论