[hadoop]数据迁移｜判断文件｜修改副本数

1.数据迁移

hadoop distcp -Dmapreduce.job.queuename=hive2 
hdfs://ip1:8020/user/hive/warehouse/test.db/t1 
hdfs://ip2:8020/user/hive/test.db/

ip1表示从哪里导入，ip2表示导入到哪里。

如果这条命令在ip1所在的节点运行则为ip1向ip2推送数据,此时用的是ip1的资源.

如果这条命令运行在ip2所在节点则为ip2从ip1拉取数据,此时用的是ip2的资源.

注意:ip为NameNode的内网ip.

增量同步用到的参数:

-i 忽略错误

-update -append(已存在文件增量同步):如果同名文件的大小<<常用知识点>>