Hadoop之HDFS01【介绍】-CFANZ编程社区

HDFS(Hadoop Distributed File System)分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

存储模型

假如我们有一个10T的文件要存储，而我们的硬盘空间只有1个T，那么这时候我们可以将这个10T的文件切成10个1T的文件来分别存储在10个硬盘中,HDFS的存储的原理其实也是这样的，将一个大文件进行线性切割成快(Block)然后存放在不同的服务器上，但很快你又会提出一个问题，如果一个字比如“存”在UTF-8当中占3个字节，而恰巧一个服务器存了1个字节而另外的2个字节存到了别的服务器上，这会出现我们使用的时候出现乱码，这个问题呢HDFS也帮我们解决了。后面会提到副本，相当于把文件克隆然后会进行一个修复操作。然后不同的文件分布到了不同的服务器上，所以是只允许写一次可以多次读取，那么HDFS存储模型的特点也就明显了。

Hadoop之HDFS01【介绍】_hadoop

序号	特点
1	文件线性切割成块（Block）:偏移量 offset （byte）
2	Block分散存储在集群节点中
3	单一文件Block大小一致，文件与文件可以不一致
4	Block可以设置副本数，副本分散在不同节点中副本数不要超过节点数量（超过多余的副本会重复将浪费空间）
5	文件上传可以设置Block大小和副本数
6	已上传的文件Block副本数可以调整，大小不变
7	只支持一次写入多次读取，同一时刻只有一个写入者（避免修改后要变动后面所有节点的偏移量）
8	可以append追加数据

上传文件指定block大小和副本数量

hadoop fs -Ddfs.replication=2 -put a.txt /

Hadoop之HDFS01【介绍】_介绍_02

hadoop fs -Ddfs.blocksize=67108864 -put fun1.sh  /

Hadoop之HDFS01【介绍】_hdfs_03

已上传的文件Block副本数可以调整，大小不变

[root@hadoop-node01 ~]# hadoop fs -setrep -w 3 /fun1.sh
Replication 3 set: /fun1.sh
Waiting for /fun1.sh .... done

Hadoop之HDFS01【介绍】_数据_04

Hadoop之HDFS01【介绍】_介绍_05
append追加数据

hadoop fs -appendToFile b.txt /a.txt

Hadoop之HDFS01【介绍】_介绍_06

Hadoop之HDFS01【介绍】_元数据_07

架构模型

Hadoop之HDFS01【介绍】_数据_08

文件元数据MetaData，文件数据
元数据
数据本身
（主）NameNode节点保存文件元数据：单节点 posix
（从）DataNode节点保存文件Block数据：多节点
DataNode与NameNode保持心跳，提交Block列表
HdfsClient与NameNode交互元数据信息
HdfsClient与DataNode交互文件Block数据

NameNode

存储元数据(MetaData)，不存储具体的block

序号	特点
1	基于内存存储，不和硬盘发生交互
2	持久化

NameNode主要功能：

序号	功能
1	接受客户端的读写服务
2	收集DataNode汇报的Block列表信息
3	NameNode保存metadata信息包括:文件owership和permissions,文件大小，时间（Block列表：Block偏移量），位置信息