0

点赞

收藏

分享

一个 Kill 不掉的 MySQL 会话

代码小姐 2023-07-06 阅读 87

标签: hadoop 大数据分布式

Hadoop绪论

第一章：Hadoop背景知识与起源
第二章：搭建Hadoop环境
第三章：Hadoop的体系架构
第四章：HDFS
第五章：MapReduce
第六章：HBase：基于HDFS之上的NoSQL数据库
第七章：Hive：都是Hadoop中的数据分析引擎，支持SQL语句
第八章：Pig：都是Hadoop中的数据分析引擎，支持PigLatin
第九章：Sqoop：实现数据采集，采集的是关系型数据库，基于JDBC
第十章：ZooKeeper与HA：重点
第十一章：HUE：基于Web的管理工具

第一章：Hadoop背景知识与起源

1、课程概述：目的：了解名词
2、实验环境：RedHat Linux 7.4 64位、Apache版本、JDK
3、大数据中几个基本概念
4、（重点）Google的三篇论文：三驾马车-----> 原理

（1）GFS：Google File System ----> HDFS：Hadoop Distributed File System 画图：分布式文件系统的基本原理
（2）MapReduce分布式计算模型 ----> 问题来源：PageRank（网页排序）问题
（3）BigTable大表 -----> NoSQL数据库：HBase

第二章：搭建Hadoop环境

Hadoop的目录结构
Hadoop的本地模式
Hadoop的伪分布模式
免密码登录的原理和配置
Hadoop的全分布模式

第三章：Hadoop的体系架构

1、HDFS分布式文件系统

（1）NameNode：名称节点
（2）DataNode：数据节点
（3）SecondaryNameNode：第二名称节点

2、Yarn：资源任务调度的容器（平台），执行MapReduce程序

（1）ResourceManager
（2）NodeManager

3、HBase的体系架构和表结构

第四章：HDFS

1、操作HDFS：Web Console、命令行、Java API
2、HDFS的原理解析（画图）

（1）数据上传的过程和原理
（2）数据下载的过程和原理

3、HDFS的高级功能

（1）回收站
（2）快照：Snapshot，是一种备份
（3）配额：Quota，名称配额、空间配额
（4）安全模式：safemode
（5）权限管理：类似Linux

4、HDFS的集群简介：联盟、HA
5、底层原理的实现

（1）代理对象Proxy
（2）RPC：remote procedure call 协议

第五章：MapReduce

1、经典案例：单词计数WordCount，实现这个过程
2、功能特性

（1）序列化：Writable接口
（2）排序
（3）分区：非常重要，画图来解释
（4）Combiner合并：优化的方式
（5）MapReduce的核心：Shuffle洗牌

3、MapReduce的编程案例

（1）数据去重
（2）多表查询：类似SQL语句，补充讲一下数据库中的多表查询
（3）实现倒排索引：原理会在HDFS中讲
（4）使用MRUnit进行MapReduce的单元测试

第六章：HBase：基于HDFS之上的NoSQL数据库

1、表结构和体系架构
2、搭建HBase的环境

（1）本地模式
（2）伪分布模式
（3）全分布模式
（4）HA

3、操作HBase：Web Console、命令行、Java API
4、HBase的过滤器：类似where条件
5、HBase中的MapReduce

第七章：Hive：都是Hadoop中的数据分析引擎，支持SQL语句

第八章：Pig：都是Hadoop中的数据分析引擎，支持PigLatin

第九章：Sqoop：实现数据采集，采集的是关系型数据库，基于JDBC

第十章：ZooKeeper与HA：重点

1、什么是ZooKeeper？功能特性、环境搭建
2、基于ZooKeeper实现Hadoop的HA：解决大数据主从架构的单点故障问题
3、HDFS的联盟：Federation

第十一章：HUE：基于Web的管理工具

0 条评论

关注