0
点赞
收藏
分享

微信扫一扫

一个 Kill 不掉的 MySQL 会话

代码小姐 2023-07-06 阅读 87

Hadoop绪论

第一章:Hadoop背景知识与起源

1、课程概述:目的:了解名词
2、实验环境:RedHat Linux 7.4 64位、Apache版本、JDK
3、大数据中几个基本概念
4、(重点)Google的三篇论文:三驾马车-----> 原理

  • (1)GFS:Google File System ----> HDFS:Hadoop Distributed File System 画图:分布式文件系统的基本原理
  • (2)MapReduce分布式计算模型 ----> 问题来源:PageRank(网页排序)问题
  • (3)BigTable大表 -----> NoSQL数据库:HBase

第二章:搭建Hadoop环境

  • Hadoop的目录结构
  • Hadoop的本地模式
  • Hadoop的伪分布模式
  • 免密码登录的原理和配置
  • Hadoop的全分布模式

第三章:Hadoop的体系架构

1、HDFS分布式文件系统

  • (1)NameNode:名称节点

  • (2)DataNode:数据节点

  • (3)SecondaryNameNode:第二名称节点

2、Yarn:资源任务调度的容器(平台),执行MapReduce程序

  • (1)ResourceManager

  • (2)NodeManager

3、HBase的体系架构和表结构

第四章:HDFS

1、操作HDFS:Web Console、命令行、Java API
2、HDFS的原理解析(画图)

  • (1)数据上传的过程和原理

  • (2)数据下载的过程和原理

3、HDFS的高级功能

  • (1)回收站

  • (2)快照:Snapshot,是一种备份

  • (3)配额:Quota,名称配额、空间配额

  • (4)安全模式:safemode

  • (5)权限管理:类似Linux

4、HDFS的集群简介:联盟、HA
5、底层原理的实现

  • (1)代理对象Proxy

  • (2)RPC:remote procedure call 协议

第五章:MapReduce

1、经典案例:单词计数WordCount,实现这个过程
2、功能特性

  • (1)序列化:Writable接口
  • (2)排序
  • (3)分区:非常重要,画图来解释
  • (4)Combiner合并:优化的方式
  • (5)MapReduce的核心:Shuffle洗牌

3、MapReduce的编程案例

  • (1)数据去重

  • (2)多表查询:类似SQL语句,补充讲一下数据库中的多表查询

  • (3)实现倒排索引:原理会在HDFS中讲

  • (4)使用MRUnit进行MapReduce的单元测试

第六章:HBase:基于HDFS之上的NoSQL数据库

1、表结构和体系架构
2、搭建HBase的环境

  • (1)本地模式

  • (2)伪分布模式

  • (3)全分布模式

  • (4)HA

3、操作HBase:Web Console、命令行、Java API
4、HBase的过滤器:类似where条件
5、HBase中的MapReduce

第七章:Hive:都是Hadoop中的数据分析引擎,支持SQL语句

第八章:Pig:都是Hadoop中的数据分析引擎,支持PigLatin

第九章:Sqoop:实现数据采集,采集的是关系型数据库,基于JDBC

第十章:ZooKeeper与HA:重点

1、什么是ZooKeeper?功能特性、环境搭建
2、基于ZooKeeper实现Hadoop的HA:解决大数据主从架构的单点故障问题
3、HDFS的联盟:Federation

第十一章:HUE:基于Web的管理工具

举报

相关推荐

0 条评论