Hadoop——第二部份 Hadoop3.x之HDFS

Hadoop

第二部份 Hadoop3.x之HDFS

一、HDFS概述

1.1 概念

HDFS(Hadoop Distributed File System)是一个分布式的文件系统，通过目录树定位文件。
所谓目录树，就是类似Linux的文件结构，从根目录往下产生的分支结构。
所谓分布式，是指实际存放的位置可能分布在于多个服务器上。
HDFS的应用场景主要在于海量的数据存储，适于一次写入，多次读取(smr)。

1.2 优缺点

优点

高容错
适合大数据存储
可搭建廉价机集群

缺点

不适合低延时
不适合大量小文件存储
通过NameNode存储文件目录和块信息，NameNode大小128G，每条信息150字节，最大存储约9亿个。
不支持并发写入、文件随机修改。

1.3 HDFS的组成

1.4 HDFS的块

HDFS中的文件在物理上分块存储，块大小可通过配置参数dfs.blocksize规定，默认为128M
HDFS的块并不是只能存储一个文件，因此文件最小占用空间大小并不是块大小
寻址时间是找到目标块的时间，块过小会增加寻址时间
寻址时间为传输时间的1%比较合适
如寻址时间为10ms，则传输时间为1s，机械硬盘的传输速率约在近百M，因此块大小一般为128M，二三百M的传输速率如固态硬盘一般设256M

二、HDFS的Shell操作

在Linux中使用以下两个同效的命令操作hdfs

hadoop fs
hdfs dfs

2.1 上传

 -put           #上传
 -copyFromLocal #上传同put
 -moveFromLocal #移动
 -appendToFile  #追加文件到文件末尾

2.2 下载

 -get         #下载，可改名
 -copyToLocal #下载

2.3 直接操作

#在生产环境中一定要甚用rm删除命令！

#以下命令多同Linux命令
 -ls
 -cat
 -mkdir
 -cp
 -mv
 -rm
 -chgrp
 -chmod
 -chown
#其它命令
 -tail     #查看文件末尾1k数据
 -du -s -h #统计文件夹大小-s汇总
 -setrep   #设置文件副本数，虽着服务器增加会相应增加副本数直至设定副本数

三、HDFS的API操作

四、HDFS读写流程

五、NameNode、SecondNameNode和DataNode的工作机制

0 条评论