Hadoop绪论
- 第一章:Hadoop背景知识与起源
- 第二章:搭建Hadoop环境
- 第三章:Hadoop的体系架构
- 第四章:HDFS
- 第五章:MapReduce
- 第六章:HBase:基于HDFS之上的NoSQL数据库
- 第七章:Hive:都是Hadoop中的数据分析引擎,支持SQL语句
- 第八章:Pig:都是Hadoop中的数据分析引擎,支持PigLatin
- 第九章:Sqoop:实现数据采集,采集的是关系型数据库,基于JDBC
- 第十章:ZooKeeper与HA:重点
- 第十一章:HUE:基于Web的管理工具
第一章:Hadoop背景知识与起源
1、课程概述:目的:了解名词
2、实验环境:RedHat Linux 7.4 64位、Apache版本、JDK
3、大数据中几个基本概念
4、(重点)Google的三篇论文:三驾马车-----> 原理
- (1)GFS:Google File System ----> HDFS:Hadoop Distributed File System 画图:分布式文件系统的基本原理
- (2)MapReduce分布式计算模型 ----> 问题来源:PageRank(网页排序)问题
- (3)BigTable大表 -----> NoSQL数据库:HBase
第二章:搭建Hadoop环境
- Hadoop的目录结构
- Hadoop的本地模式
- Hadoop的伪分布模式
- 免密码登录的原理和配置
- Hadoop的全分布模式
第三章:Hadoop的体系架构
1、HDFS分布式文件系统
-
(1)NameNode:名称节点
-
(2)DataNode:数据节点
-
(3)SecondaryNameNode:第二名称节点
2、Yarn:资源任务调度的容器(平台),执行MapReduce程序
-
(1)ResourceManager
-
(2)NodeManager
3、HBase的体系架构和表结构
第四章:HDFS
1、操作HDFS:Web Console、命令行、Java API
2、HDFS的原理解析(画图)
-
(1)数据上传的过程和原理
-
(2)数据下载的过程和原理
3、HDFS的高级功能
-
(1)回收站
-
(2)快照:Snapshot,是一种备份
-
(3)配额:Quota,名称配额、空间配额
-
(4)安全模式:safemode
-
(5)权限管理:类似Linux
4、HDFS的集群简介:联盟、HA
5、底层原理的实现
-
(1)代理对象Proxy
-
(2)RPC:remote procedure call 协议
第五章:MapReduce
1、经典案例:单词计数WordCount,实现这个过程
2、功能特性
- (1)序列化:Writable接口
- (2)排序
- (3)分区:非常重要,画图来解释
- (4)Combiner合并:优化的方式
- (5)MapReduce的核心:Shuffle洗牌
3、MapReduce的编程案例
-
(1)数据去重
-
(2)多表查询:类似SQL语句,补充讲一下数据库中的多表查询
-
(3)实现倒排索引:原理会在HDFS中讲
-
(4)使用MRUnit进行MapReduce的单元测试
第六章:HBase:基于HDFS之上的NoSQL数据库
1、表结构和体系架构
2、搭建HBase的环境
-
(1)本地模式
-
(2)伪分布模式
-
(3)全分布模式
-
(4)HA
3、操作HBase:Web Console、命令行、Java API
4、HBase的过滤器:类似where条件
5、HBase中的MapReduce
第七章:Hive:都是Hadoop中的数据分析引擎,支持SQL语句
第八章:Pig:都是Hadoop中的数据分析引擎,支持PigLatin
第九章:Sqoop:实现数据采集,采集的是关系型数据库,基于JDBC
第十章:ZooKeeper与HA:重点
1、什么是ZooKeeper?功能特性、环境搭建
2、基于ZooKeeper实现Hadoop的HA:解决大数据主从架构的单点故障问题
3、HDFS的联盟:Federation