0
点赞
收藏
分享

微信扫一扫

如何在非Kerberos环境下对CDH进行扩容

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。


1.文档编写目的



Hadoop集群其中一个优点就是可伸缩性(横向扩展),通过增加计算节点使服务容量产生线性增长的能力。可伸缩的应用程序的主要特点是:只需要增加资源,而不需要对应用程序本身进行大量修改。在集群资源紧张的情况下可通过动态的扩容节点来增加集群的计算能力。本篇文章主要介绍如何使用Cloudera Manager在线扩容DataNode节点。


  • 内容概述

1.创建DataNode模板

2.DataNode节点前置准备

3.上线DataNode节点并应用模板

4.执行Balance均衡集群数据


  • 测试环境

1.CM和CDH版本为5.11.2

2.集群未启用Kerberos

3.Redha7.2

4.采用具有sudo权限的ec2-user进行操作


  • 前置条件

1.拥有Cloudera Manager的管理员账号

2.CDH集群已安装成功并正常运行


2.创建DataNode节点主机模板



1.登录Cloudera Manager Web界面,进入“主机模板”界面


如何在非Kerberos环境下对CDH进行扩容_cloudera

如何在非Kerberos环境下对CDH进行扩容_数据_02


2.点击“创建”,创建一个datanode主机模板,并为模板选择角色


如何在非Kerberos环境下对CDH进行扩容_hive_03


3.点击“创建”,完成DataNode模板创建


如何在非Kerberos环境下对CDH进行扩容_数据_04


3.DataNode节点的前置准备



前置准备请参考Fayson之前的文章《​​CDH安装前置准备​​》,主要包括以下步骤:


1.确保OS的yum源可以正常使用,通过yum repolist命令可以查看到匹配的OS的所有包


2.确保Cloudera Manager的yum源运行正常


3.hosts文件配置,需要将Gateway节点的IP和hostname加入到CDH集群节点的hosts文件中,并同步到所有机器包括Gateway节点


4.禁用SELinux


5.关闭防火墙


6.设置swap为10


7.关闭透明大页面


8.配置时钟同步


请务必确保以上操作都已完成,并成功配置,否则接下来的增加节点操作会失败!


4.上线DataNode节点



1.点击“所有主机”,进入主机列表


如何在非Kerberos环境下对CDH进行扩容_数据_05


2.点击“向集群添加新主机”


如何在非Kerberos环境下对CDH进行扩容_数据_06


3.点击“经典向导”,进入添加新主机引导页


如何在非Kerberos环境下对CDH进行扩容_数据_07


4.点击“继续”,输入要添加的新主机ip或hostname


如何在非Kerberos环境下对CDH进行扩容_数据_08


点击“搜索”


如何在非Kerberos环境下对CDH进行扩容_数据_09


5.选择需要添加到集群的主机,点击“继续”


如何在非Kerberos环境下对CDH进行扩容_hive_10


6.输入Cloudera Manager Agent的parcel库地址,点击“继续”


如何在非Kerberos环境下对CDH进行扩容_hive_11


勾选Java开发工具包及无限制强度加密策略文件。


7.安装JDK,点击“继续”


如何在非Kerberos环境下对CDH进行扩容_数据_12


8.输入ec2-user用户密码,点击“继续”


如何在非Kerberos环境下对CDH进行扩容_hive_13


向集群添加新主机,等待安装成功。


如何在非Kerberos环境下对CDH进行扩容_hive_14


9.安装完成,点击“继续”


如何在非Kerberos环境下对CDH进行扩容_hive_15


向新主机分发并激活parcel


如何在非Kerberos环境下对CDH进行扩容_hive_16


10.激活成功,点击“继续”


如何在非Kerberos环境下对CDH进行扩容_hive_17


11.主机正确性检查通过,点击“继续”,选择主机模板


如何在非Kerberos环境下对CDH进行扩容_数据_18


12.点击“继续”,启动主机角色


如何在非Kerberos环境下对CDH进行扩容_cloudera_19


启动成功


如何在非Kerberos环境下对CDH进行扩容_hive_20


13.点击“继续”,部署客户端配置


如何在非Kerberos环境下对CDH进行扩容_数据_21


14.点击“完成”,进入主机列表


如何在非Kerberos环境下对CDH进行扩容_hive_22


至此,向CDH已完成向CDH集群添加数据节点。

节点上线后各服务节点磁盘使用情况


如何在非Kerberos环境下对CDH进行扩容_hive_23


可以看到新添加的DataNode节点,磁盘几乎未使用,说明暂未有数据写入该数据节点。接下来对DataNode节点进行数据平衡操作。


5.执行Balance操作



Balance是为了平衡数据,如果不执行该操作,集群将会把新的数据都存放在新的datanode上,这样会造成数据分布不平衡,影响作业的工作效率。


1.进入HDFS服务,选择“重新平衡”菜单


如何在非Kerberos环境下对CDH进行扩容_cloudera_24


2.点击“重新平衡”


如何在非Kerberos环境下对CDH进行扩容_数据_25


3.点击“重新平衡”,执行重新平衡操作


如何在非Kerberos环境下对CDH进行扩容_hive_26


4.执行成功


如何在非Kerberos环境下对CDH进行扩容_cloudera_27


Balance参数说明:

重新平衡阈值:值越低各节点越平衡,但消耗时间也更长,默认为10%


如何在非Kerberos环境下对CDH进行扩容_数据_28


dfs.datanode.balance.max.concurrent.moves:允许同时并发复制的块数


如何在非Kerberos环境下对CDH进行扩容_数据_29


6.查看数据分布情况



通过HDFS的http://hostname:50070界面可以看到在执行了“重新平衡”操作后,新加入的DataNode节点磁盘的使用率和其它节点磁盘使用率相差在10%以内,如果需要降低各节点磁盘使用率差则需要调整“重新平衡阈值”该值越低节点磁盘使用率差越低。


如何在非Kerberos环境下对CDH进行扩容_hive_30




为天地立心,为生民立命,为往圣继绝学,为万世开太平。

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。





推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

如何在非Kerberos环境下对CDH进行扩容_cloudera_31

原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操


举报

相关推荐

0 条评论