hadoop概述
Hadoop起源
Hadoop生态圈及各个组件简介
-
HDFS:分布式文件系统
-
MAPREDUCE:分布式运算程序开发框架
-
HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具
-
HBASE:基于HADOOP的分布式海量数据库(列式存储)
-
ZOOKEEPER:分布式协调服务基础组件
-
Oozie:工作流调度框架
-
Sqoop:数据导入导出工具
-
Flume:日志数据采集框架
HDFS 简介
HDFS的shell
hadoop fs -ls / #查看目录存储文件
bin/hdfs dfs -ls /
bin/hdfs dfs -cat /wc/input/2.txt #查看文件内容
hadoop fs -charp -R root /wc #改变文件组属性
Hadoop fs -chmod 777 文件名
hadoop fs -chown 改变文件的所有者
hsdoop fs -put (-copyFromLocal,-moveFromLocal)(可以实现剪切的效果):本地文件上传到HDFS
hadoop fs -get (-copyTolocal):复制文件到本地路径
hadoop fs -cp 复制文件
hadoop fs -du 展示文件大小
hadoop fs -dus 显示文件大小
-ls/-lsr 返回文件或目录列表
-mkdir 创建目录 -p 创建递归目录
-mv 移动文件或者改名
-rm(-rmr) 删除文件和递归删除
-setrep 改变文件的副本数量
-tail 把文件尾部内容1k字节输出
-touchz 创建空文件
-getmerge 将多个文件合并到一个文件
hdfs 的读写机制
HDFS各节点详解
2.namenode 元数据管理
1. 内存镜像=fsimage+edits
2. edits文件过大将会导致namenode重启速度慢
3. secondary namenode 负责定期合并他们
3.secondaryNamenode 工作流程
-
secondary通知Namenode切换Edits文件
-
secondary通过HTTP请求从namenode获得fsimage和edits文件
-
secondary将fsimage载入内存,然后合并edits
-
secondary将新的fsimage发回给Namenode,用新的fsimage替换旧的