0
点赞
收藏
分享

微信扫一扫

Hadoop——第二部份 Hadoop3.x之HDFS

南柯Taylor 2022-01-12 阅读 79

Hadoop

第二部份 Hadoop3.x之HDFS

一、HDFS概述

1.1 概念

HDFS(Hadoop Distributed File System)是一个分布式的文件系统,通过目录树定位文件。
所谓目录树,就是类似Linux的文件结构,从根目录往下产生的分支结构。
所谓分布式,是指实际存放的位置可能分布在于多个服务器上。
HDFS的应用场景主要在于海量的数据存储,适于一次写入,多次读取(smr)。

1.2 优缺点

  1. 优点
  • 高容错
  • 适合大数据存储
  • 可搭建廉价机集群
  1. 缺点
  • 不适合低延时
  • 不适合大量小文件存储
    通过NameNode存储文件目录和块信息,NameNode大小128G,每条信息150字节,最大存储约9亿个。
  • 不支持并发写入、文件随机修改。

1.3 HDFS的组成

1.4 HDFS的块

  • HDFS中的文件在物理上分块存储,块大小可通过配置参数dfs.blocksize规定,默认为128M
  • HDFS的块并不是只能存储一个文件,因此文件最小占用空间大小并不是块大小
  • 寻址时间是找到目标块的时间,块过小会增加寻址时间
  • 寻址时间为传输时间的1%比较合适
  • 如寻址时间为10ms,则传输时间为1s,机械硬盘的传输速率约在近百M,因此块大小一般为128M,二三百M的传输速率如固态硬盘一般设256M

二、HDFS的Shell操作

  • 在Linux中使用以下两个同效的命令操作hdfs
hadoop fs
hdfs dfs

2.1 上传

 -put           #上传
 -copyFromLocal #上传同put
 -moveFromLocal #移动
 -appendToFile  #追加文件到文件末尾

2.2 下载

 -get         #下载,可改名
 -copyToLocal #下载

2.3 直接操作

#在生产环境中一定要甚用rm删除命令!

#以下命令多同Linux命令
 -ls
 -cat
 -mkdir
 -cp
 -mv
 -rm
 -chgrp
 -chmod
 -chown
#其它命令
 -tail     #查看文件末尾1k数据
 -du -s -h #统计文件夹大小-s汇总
 -setrep   #设置文件副本数,虽着服务器增加会相应增加副本数直至设定副本数

三、HDFS的API操作

四、HDFS读写流程

五、NameNode、SecondNameNode和DataNode的工作机制

举报

相关推荐

0 条评论