0
点赞
收藏
分享

微信扫一扫

Hadoop——第一部份 Hadoop入门——一、Hadoop概述

小龟老师 2022-01-07 阅读 104

第一部份 Hadoop入门

一、Hadoop概述

  • 介绍
  • 发行版本
  • 特点
  • 组成
  • 大数据技术生态体系

1.1 Hadoop概念

  • Hadoop是Apache基金会开发的分布式系统基础架构
  • 主要解决海量数据存储和分析计算
  • 广义Hadoop指Hadoop生太圈

1.2 Hadoop发行版

  • Apache原始开源版
  • Cloudera商业版CDH
  • Hortonworks商业版HDP
  • 两家公司合并后的商业版CDP

1.3 Hadoop特点

  • 高可靠——多副本
  • 高扩展——动态增加服务器
  • 高效——并行工作
  • 高空错——失败任务重新分配

1.4 Hadoop组成

功能1.x2.x
计算MapReduceMapReduce
资源调度MapReduceYarn
数据存储HDFSHDFS
辅助工具CommonCommon
  1. HDFS
    HDFS(Hadoop Distributed File System)是Hadoop分布式文件系统。
  • NameNode(nn)——文件源数据
  • DataNode(dn)——文件数据
  • Secondary NameNode(2nn)——nn定期备份(非热备)

源数据,是描述数据的数据,用于描术数据的属性信息

  1. Yarn
    Yarn(Yet Another Resource Negotiator)是Hadoop资源管理器。
  • ResourcesManager(RM)——集群资源管理器
  • NodeManager(NM)——节点管理器
  • ApplicationMaster(AM)——应用管理器
  • Container——容器(独立服务器)
  1. MapReduce
  • Map阶段——并行处理输入数据
  • Reduce阶段——结果汇总
  1. 运作方式
    请添加图片描述

1.5 大数据技术生态体系

举报

相关推荐

0 条评论