文章目录
- 01 CDH概述
- 1.1 CDH简介
- 1.2 CDH架构
- 1.3 CloudManager
- 02 CloudManager组件安装(CDH、Impala、Hue、oozie等服务 )
- 03 文末
01 CDH概述
1.1 CDH简介
CDH(Cloudra’s Distribution Apache Of Hadoop) 是集成多种技术的一个框架,是Apache Hadoop和相关项目的最完整,经过测试和最流行的发行版,它提供:
- 灵活性:存储任何类型的数据并使用各种不同的计算框架进行处理,包括批处理,交互式SQL,自由文本搜索,机器学习和统计计算。
- 集成:在可与广泛的硬件和软件解决方案一起使用的完整Hadoop平台上快速启动并运行。
- 安全性:处理和控制敏感数据。
- 可扩展性:启用广泛的应用程序并进行扩展,并扩展它们以满足您的要求。
- 高可用性:自信地执行关键任务业务任务。
- 兼容性:利用您现有的IT基础架构和投资。
1.2 CDH架构
了解CDH架构之前,先来看看hadoop的生态构成:
| 组件 | 描述 | 
| HDFS | 分布式文件系统(ZKFC:为实现NameNode高可用,在NameNode和Zookeeper之间传递信息,选举主节点工具。NameNode:存储文件元数据DateNode:存储具体数据JournalNode:同步主NameNode节点数据到从节点NameNode) | 
| MapReduce | 开源的分布式批处理计算框架 | 
| Spark | 分布式基于内存的批处理框架 | 
| Zookeeper | 分布式协调管理 | 
| Yarn | 调度资源管理器 | 
| HBase | 基于HDFS的NoSql列式数据库 | 
| Hive | 将SQL转换为MapReduce进行计算 | 
| Hue | 是CDH的一个UI框架 | 
| Impala | 是Cloudra公司开发的一个查询系统,类似于Hive,可以通过SQL执行任务,但是它不基于MapReduce算法,而是直接执行分布式计算,这样就提高了效率 | 
| oozie | 是一个工作流调度引擎,负责将多个任务组合在一起按序执行 | 
| kudu | Apache Kudu是转为hadoop平台开发的列式存储管理器,和impala结合使用,可以进行增删改查。 | 
| Sqoop | 将hadoop和关系型数据库互相转移的工具 | 
| Flume | 采集日志 | 
| 其它 | … | 
前面已经说了,CDH是集成多种技术的一个框架,其实就是Hadoop的扩展版本,那么它究竟包含了什么,下面看看一张图:
1.3 CloudManager
前面了解了cdh为何物?那么是否有相关的可视化操作平台呢?当然有,也就是现在要讲的CM(Cloudra Manager),它的结构图如下:
CM是一个web操作平台,可以安装CDH然后再安装多种Hadoop框架,它的组件如下:
- Clients:客户端,通过web页面和ClouderaManager和服务器进行交互;
- API:通过API和ClouderaManagement和服务器进行交互;
- Cloudera Repository:存储分发安装包;
- Management Server:进行监控和预警;
- Database:存储预警信息和配置信息;
- Agent:分布在多台服务器,负责配置,启动和停止进程。监控主机。
02 CloudManager组件安装(CDH、Impala、Hue、oozie等服务 )
详细安装步骤参考:javascript:void(0)
这里大致描述安装的的流程:
- 准备三台主机,安装CentOS(设置网络和主机名->修改主机别名->设置cdh1对其它主机免密钥->关闭防火墙->禁止开机启动->SELINUX关闭) 
- 安装MySql
- 安装JDK
- 安装NTP(时间管理器,用于同步时间)
- 为CM配置Repository(就是rpm仓库)
- 安装Cloudera Manager服务
- 配置MySql
- 设置Cloudea Manager数据库
- 安装CDH和其它软件,登录CloudManager操作 
03 文末
本文主要讲解了CDH以及CloudManager的概念,希望能帮助到大家,谢谢大家的阅读!










