1、HDFS、YARN、MapReduce三者关系
如图:
2、大数据生态体系
如图:
Oozie任务调度 | Azkaban任务调度 | 任务调度层 | ||||
Hive数据查询 | Spark Milb数据挖掘 | Spark Sql数据查询 | Spark Streaming实时计算 | Flink | 数据计算层 | |
MapReduce离线计算 | Spark Core内存计算 | Storm实时计算 | 资源管理层 | |||
YARN资源管理 | 数据存储层 | |||||
HBase非关系数据库 HDFS文件存储 Sqoop数据传递 Flume日志收集 | Kafka消息队列 | 数据传输层 | ||||
数据库(结构化数据) | 文件日志(半节构化数据) | 视频、ppt等(非结构化数据) | 数据来源层 |
第一章hadoop运行环境搭建(开发重点)
2.1模板虚拟机环境准备
1)安装VMware
安装模板虚拟机,IP地址192.168.10.100,主机名称hadoop100,内存设置4G,硬盘50G.
2)双击软件,按下一步,接受协议,点击下一步,根据自己的硬盘内存更改下载位置,接着点击正确,继续下一步,取消启动时检查产品更新和加入VMare客户体验提升计划,点击下一步,选择VMare的快捷方式,下一步,接着安装。
第二章CentOS
2.1配置电脑
系统的安装得分为两个步骤,第一步得配置一台电脑,选配CPU,内存,磁盘,网卡等硬件。第二步才是安装系统。
2.1.1进入VMware
1)双击图标进入VMware
1:配置硬件和软件
安装虚拟机,双击VMware图标,点击创建虚拟机,配置类型点击自定义,点击稍后安装操作系统接着点击下一步,客户机操作系统选择Linux(L),版本选择CentOS 7 64位,点击下一步,命名虚拟机名称hadoop(也可以自己取名),选择自己合适的位置,点击下一步,处理器数量:2,每个处理器的内核数量:2,下一步,给每台虚拟机配内存:4G,下一步,网络类型,选择(NAT),下一步,默认;下一步,默认; 配置磁盘大小:40G;下一步虚拟机存储位置自己选择自己合适的位置,接着生成虚拟机配置的清单,点击完成;虚拟机创建完成。给虚拟机配置硬盘,然后点击开启虚拟机;Ctrl+Alt可释放鼠标光标。开机页面后,选择自己使用的字体:中文;调整时间和日期;软件选择,选择桌面版安装;安装位置,其他存储选项,选择我要分配分区;手动分区,添加新挂3个载点,1命名:/boot,配置1g;2命名:swap,配置4g;3命名:/,配置45g;点击完成,点击接受并更改;点击KDUMP,取消启用kdump;点击网络和主机名,备注主机名为hadoop100点击完成;点击SECURlTY POLICY,保持默认打开,点击安装,接着给root账户配置密码,点击完成,然后点击重启,敲击回车,时区改为上海,点击前进;接着创建一个账号名:atguigu,点击前进,然后开启使用。