昨天遇到了开发的一个集群cm节点服务器无法登陆,必须系统重装的场景,重装后需要重新安装cm server并接管原集群,主要参考了下面链接的操作步骤:如何迁移Cloudera Manager节点
由于拿到该服务器时系统已重装,系统盘下的相关配置文件已无法恢复,故没有做备份操作,实际证明不备份也可实现重新接管,只是丢失了原有的监控数据和历史命令信息。
1. 拷贝其它集群节点的hosts文件,并将cm节点主机名修改正确
2. 关闭防火墙、透明大页面等,该步骤与集群安装前准备相同,不赘述
3. 安装ntp服务,确认ntp服务器配置,这个集群原来是cm节点做为ntp server的,还是这么设定,就不必修改其它节点的配置了
4. 拷贝cm的yum源文件、数据库连接驱动
5. 安装cloudera-scm-server
6. 修改cm的数据库配置文件/etc/cloudera-scm-server/db.properties 指向原数据库
7. 启动cloudera-scm-server
8. 由于该节点原来部署了hdfs datanode,hms,resourcemanager等服务,已无法正常启动,查看namenode界面后发现缺少该节点的数据副本并不会导致数据丢失,为了快速恢复集群就简单粗暴的将该节点原服务都删除并将host从cm中删除再重新添加服务,若数据有丢失的情况,不建议这样操作