HDFS是什么
hdfs是一个分布式文件系统
使用场景
一次写入多次读取,不支持文件的修改
优缺点
- 优点 
  - 高容错:副本存储策略
- 适合处理大数据(数据量和文件量)
- 成本低:可构建在廉价机器上
 
- 缺点 
  - 不适合存储大量小文件
- 不支持修改只能追加
- 不适合低延迟数据访问
 
组成架构
- NameNode:相当于一本书的目录 
  - 处理客户端读写请求
- 管理数据块的映射信息
- 管理HDFS的命名空间
- 配置副本策略
 
- DataNode: 
  - 执行读写操作
 
- SecondaryNameNode: 
  - 辅助NameNode,定期合并镜像文件和日志文件
- 可帮助恢复NameNode
 
- Client: 
  - 文件切分
- 和NameNode、DataNode交互
- 提供命令管理、访问HDFS
 
文件块大小
- Hadoop2.x以后默认是128M
- HDFS的块大小不能太大也不能太小,如果太大磁盘的传输时间就会太大,如果太小寻址时间又会很多
- 文件块大小主要取决于磁盘的传输速率
HDFS的Shell操作及常见命令
HDFS的Shell操作及常见命令
读写数据流以及机架感知(副本存储节点选择)
读写数据流以及机架感知(副本存储节点选择)










