0
点赞
收藏
分享

微信扫一扫

通过CombineTextInputFormat实现小文件优化(调优技能)

诗远 2022-02-07 阅读 75



文章目录


0x00 文章内容0x01 未修改前情况
  • 1. 当前文件情况
  • 2. 执行未修改前作业
  • 3. 查看结果
  • 0x02 CombineTextInputFormat实现小文件优化
  • 1. 修改代码
  • 2. 执行修改后作业
  • 3. 查看结果
  • 0xFF 总结


0x00 文章内容


  1. 未修改前情况
  2. CombineTextInputFormat实现小文件优化

说明:本文章在MapReduce编程例子之Combiner与Partitioner 的Combiner例子基础上执行。

0x01 未修改前情况

1. 当前文件情况

a. 目前​​/files​​文件夹有4个文件

[hadoop-sny@master jar]$ hadoop fs -ls /files/
Found 4 items
-rw-r--r-- 1 hadoop-sny supergroup 39 2019-04-18 21:20 /files/put.txt
-rw-r--r-- 1 hadoop-sny supergroup 50 2019-12-30 17:12 /files/small1.txt
-rw-r--r-- 1 hadoop-sny supergroup 31 2019-12-30 17:10 /files/small2.txt
-rw-r--r-- 1 hadoop-sny supergroup 49 2019-12-30 17:11 /files/small3.txt
2. 执行未修改前作业

a. 执行命令如下:

hadoop jar hadoop-learning-1.0.jar com.shaonaiyi.hadoop.CombinerWC /files/* /output/comwc/
3. 查看结果

a. 可在YARN的Web UI界面上看到有4个Map Task

通过CombineTextInputFormat实现小文件优化(调优技能)_hadoop

0x02 CombineTextInputFormat实现小文件优化

1. 修改代码

a. 添加一行代码

//合并小文件CombineTextInputFormat
job.setInputFormatClass(CombineTextInputFormat.class);

通过CombineTextInputFormat实现小文件优化(调优技能)_ui界面_02

2. 执行修改后作业

a. 执行命令如下(与前面一样):

hadoop jar hadoop-learning-1.0.jar com.shaonaiyi.hadoop.CombinerWC /files/* /output/comwc/
3. 查看结果

a. 可在YARN的Web UI界面上看到只有1个Map Task

通过CombineTextInputFormat实现小文件优化(调优技能)_hadoop_03

0xFF 总结

  1. 一个Map Task就是一个JVM进程,将一个目录下的所有文件当成了一个split来执行,可以减少JVM的启动,从而提高性能。

​作者简介:邵奈一

全栈工程师、市场洞察者、专栏编辑

| 公众号​ | 微信​ | 微博​| 简书 |

福利:

邵奈一的技术博客导航

邵奈一 原创不易,如转载请标明出处。


举报

相关推荐

0 条评论