1 Hadoop生态圈技术纵览
 
  
    
    
     
         
     
2 分布式概念
           
     
3 HDFS 读写过程
           
   
HDFS 读过程
  
         
   
HDFS 写过程
  
4 伪分布式集群
           
     
5 MapReduce
MapReduce是一个编程框架,允许我们在分布式环境中对大型数据集执行分布式和并行处理:
- MapReduce由两个不同的任务组成 Map和Reduce。
 - 正如MapReduce的名称所示,reducer阶段发生在mapper阶段完成之后。
 - 因此,第一个是Map任务,其中读取并处理数据块以生成作为中间输出的键值对。
 - Mapper或map作业(键值对)的输出被输入到Reducer。
 - reducer从多个map作业中接收键值对。
 - 然后,reducer将这些中间数据元组(中间键值对)聚合成一组较小的元组或键值对,这是最终输出。
 
MapReduce教程:MapReduce的字数统计示例
 让我们通过一个示例来了解MapReduce是如何工作的,有一个 名为example.txt的文本文件,其内容如下:
Dear, Bear, River, Car, Car, River, Deer, Car ,Bear现在,假设我们必须使用MapReduce对sample.txt执行单词统计,将找到这些单词和每个单词出现的次数。
  
         
     
- 首先,我们将输入分成三个分区,如图所示。这将在所有Map节点之间分配工作。
 - 然后,我们对每个映射器中的单词进行标记,并为每个标记或单词提供硬编码值(1)。给出硬编码值等于1的理由是每个单词本身都会出现一次。
 - 现在,将创建一个键值对列表,其中键是单词和值是1。所以,对于第一行(
Dear, Bear, River),我们有3个键值对 - Dear,1; Bear,1; River,1。映射过程在所有节点上保持不变。 - 在映射器阶段之后,发生分区和重排的分区过程,以便将具有相同键的所有元组发送到相应的reducer。
 - 因此,在排序和重排阶段之后,每个reducer将具有唯一键和与该键相对应的值列表。例如,Bear,[1,1]; Car,[1,1,1] ..等
 - 现在,每个Reducer计算该值列表中存在的值。如图所示,reducer获取一个值列表,其中键值为[1,1]。然后,它计算列表中的1的数量,并将最终输出给出为 - Bear,2。
 - 最后,然后收集所有输出键/值对并将其写入输出文件中。
 










