几种压缩方式笔记:
textfile 存储空间消耗比较大,并且压缩的 text 无法分割和合并 查询的效率最低,可以直接存储,加载数据的速度最高
sequencefile 存储空间消耗大,压缩的文件可以分割和合并 查询效率高,需要通过text 文件转化来加载
rcfile 存储空间最小,查询的效率最高 ,需要通过 text 文件转化来加载,
加载的速度最低相比 TEXTFILE 和 SEQUENCEFILE,RCFILE 由于列式存储方式,数据加载时性能消
耗较大,但是具有较好的压缩比和查询响应。数据仓库的特点是一次写入、多次读取,因此,
整体来看,RCFILE 相比其余两种格式具有较明显的优势。
通过比较:
使用压缩可以提高hdfs的存储能力,还有加快我们查询效率。
在工作中常用压缩方式rc和orc