Hadoop 支持的压缩编码
压缩格式 | 算法 | 文件扩展名 | 是否可切分 |
LZO | LZO | .lzo | 是 |
Snappy | Snappy | .snappy | 否 |
DEFLATE | DEFLATE | .deflate | 否 |
Gzip | DEFLATE | .gz | 否 |
bzip2 | bzip2 | .bz2 | 是 |
Hadoop 编解码器
压缩格式 | 编解码器 |
LZO | com.hadoop.compression.lzo.lzopCodec |
Snappy | org.apache.hadoop.io.compress.SnappyCodec |
DEFLATE | org.apache.hadoop.io.compress.DefaultCodec |
Gzip | org.apache.hadoop.io.compress.GzipCodec |
bzip2 | org.apache.hadoop.io.compress.BZip2Codec |
压缩性能比较
压缩算法 | 原文件 | 压缩后 | 压缩比 | 压缩速度 | 解压速度 |
Gzip | 8.3GB | 1.8GB | 21.68% | 17.5MB/s | 58MB/s |
bzip2 | 8.3GB | 1.1GB | 13.25% | 2.4MB/s | 9.5MB/s |
LZO | 8.3GB | 2.9GB | 24.93% | 49.3MB/s | 74.6MB/s |
Snappy | 在64位模式下的Core i7处理器的单核上,Snappy以大约250 MB / sec或更高的速度压缩,并以大约500 MB / sec或更高的速度解压缩(http://google.github.io/snappy/) |