ORC与Parquet均为列式存储结构,那么他们有什么不同呢?
一、ORC与Parquet总结对比
1、orc不支持嵌套结构(但可通过复杂数据类型如map<k,v>间接实现),parquet支持嵌套结构
2、orc与hive的兼容性强,作为hive的常用存储格式
3、orc相比parquet的存储压缩率较高,如下图
4、orc导入数据和数据查询的的速度比parquet快
二、实测结果
存储格式 | 存储占用(HDFS) | 查询SQL | 查询耗时(秒) |
---|---|---|---|
ORC | 58.3G |
| 35s |
Parquet | 311.9 G |
| 66s |
上面的测试结果仅供参考,从上面也可以说明orc作为hive存储格式的普适性,无论从存储还是查询效率,orc均占有优势。
参考:
https://developer.aliyun.com/article/226990