0
点赞
收藏
分享

微信扫一扫

Hadoop19:YARN介绍

松鼠树屋 2022-03-11 阅读 49

一、HADOOP之YARN详解

前面我们学习了Hadoop中的MapReduce,我们知道MapReduce任务是需要在YARN中执行的,那下面我们就来学习一下Hadoop中的YARN

二、YARN的由来

从Hadoop2开始,官方把资源管理单独剥离出来,主要是为了考虑后期作为一个公共的资源管理平台,任何满足规则的计算引擎都可以在它上面执行。
所以YARN可以实现HADOOP集群的资源共享,不仅仅可以跑MapRedcue,还可以跑Spark、Flink。

三、YARN架构分析

咱们之前部署Hadoop集群的时候也对YARN的架构有了基本的了解
YARN主要负责集群资源的管理和调度 ,支持主从架构,主节点最多可以有2个,从节点可以有多个

其中:ResourceManager:是主节点,主要负责集群资源的分配和管理
NodeManager:是从节点,主要负责当前机器资源管理

四、YARN资源管理模型

YARN主要管理内存和CPU这两种资源类型
当NodeManager节点启动的时候自动向ResourceManager注册,将当前节点上的可用CPU信息和内存信息注册上去。
这样所有的nodemanager注册完成以后,resourcemanager就知道目前集群的资源总量了。

那我们现在来看一下我这个一主两从的集群资源是什么样子的,打开yarn的8088界面

在这里插入图片描述

注意,这里面显示的资源是集群中所有从节点的资源总和,不包括主节点的资源

那我们再详细看一下每一个从节点的资源信息

在这里插入图片描述
但是这个数值是对不上的,我的linux机器每台只给它分配了2G的内存
通过free -m可以看到

[root@bigdata02 ~]# free -m
              total        used        free      shared  buff/cache   available
Mem:           1819         372        1133           9         313        1297
Swap:          2047           0        2047

CPU只分配了1个
通过top命令可以看到

top - 11:30:35 up  1:05,  1 user,  load average: 0.00, 0.08, 0.10
Tasks:  99 total,   1 running,  98 sleeping,   0 stopped,   0 zombie
%Cpu0  :  0.3 us,  0.3 sy,  0.0 ni, 99.3 id,  0.0 wa,  0.0 hi,  0.0 si

那为什么在这里显示是内存是8G,CPU是8个呢?
不要着急,我们先喝杯咖啡,看一下下面这2个参数

yarn.nodemanager.resource.memory-mb:单节点可分配的物理内存总量,默认是8MB*1024,即8G
yarn.nodemanager.resource.cpu-vcores:单节点可分配的虚拟CPU个数,默认是8

看到没有,这都是默认单节点的内存和CPU信息,就算你这个机器没有这么多资源,但是在yarn-default.xml中有这些默认资源的配置,这样当nodemanager去上报资源的时候就会读取这两个参数的值,这也就是为什么我们在前面看到了单节点都是8G内存和8个cpu,其实我们的linux机器是没有这么大资源的,那你这就是虚标啊,肯定不能这样干,你实际有多少就是多少,所以我们可以修改这些参数的值,修改的话就在yarn-site.xml中进行配置即可,改完之后就可以看到真实的信息了,在这我就先不改了,针对我们的学习环境不影响使用,修改的意义不大,你知道这回事就行了。

五、YARN中的调度器

接下来我们来详细分析一下YARN中的调度器,这个是非常实用的东西,面试的时候也会经常问到。
大家可以想象一个场景,我们集群的资源是有限的,在实际工作中会有很多人向集群中提交任务,那这时候资源如何分配呢?
如果你提交了一个很占资源的任务,这一个任务就把集群中90%的资源都占用了,后面别人再提交任务,剩下的资源就不够用了,这个时候怎么办?
让他们等你的任务执行完了再执行?还是说你把你的资源匀出来一些分给他,你少占用一些,让他也能慢慢的开始执行?
具体如何去做这个是由YARN中的调度器负责的
YARN中支持三种调度器

1:FIFO Scheduler:先进先出(first in, first out)调度策略
2:Capacity Scheduler:FIFO Scheduler的多队列版本
3:FairScheduler:多队列,多用户共享资源

下面来看图分析一下这三种调度器的特性
在这里插入图片描述

1、FIFO Scheduler:是先进先出的,大家都是排队的,如果你的任务申请不到足够的资源,那你就等着,等前面的任务执行结束释放了资源之后你再执行。这种在有些时候是不合理的,因为我们有一些任务的优先级比较高,我们希望任务提交上去立刻就开始执行,这个就实现不了了。
2、CapacityScheduler:它是FifoScheduler的多队列版本,就是我们先把集群中的整块资源划分成多份,我们可以人为的给这些资源定义使用场景,例如图里面的queue A里面运行普通的任务,queueB中运行优先级比较高的任务。这两个队列的资源是相互对立的
但是注意一点,队列内部还是按照先进先出的规则。
3、FairScheduler:支持多个队列,每个队列可以配置一定的资源,每个队列中的任务共享其所在队列的所有资源,不需要排队等待资源
具体是这样的,假设我们向一个队列中提交了一个任务,这个任务刚开始会占用整个队列的资源,当你再提交第二个任务的时候,第一个任务会把他的资源释放出来一部分给第二个任务使用

在实际工作中我们一般都是使用第二种,CapacityScheduler,从hadoop2开始,CapacityScheduler也是集群中的默认调度器了
那下面我们到集群上看一下,点击左侧的Scheduler查看

在这里插入图片描述
Capacity,这个是集群的调度器类型,
下面的root是根的意思,他下面目前只有一个队列,叫default,我们之前提交的任务都会进入到这个队列中。
下面我们来修改一下,增加多个队列

举报

相关推荐

0 条评论