0
点赞
收藏
分享

微信扫一扫

ORC与PARQUET的区别

罗子僧 2022-04-29 阅读 79

ORC与Parquet均为列式存储结构,那么他们有什么不同呢?

 

一、ORC与Parquet总结对比
1、orc不支持嵌套结构(但可通过复杂数据类型如map<k,v>间接实现),parquet支持嵌套结构
2、orc与hive的兼容性强,作为hive的常用存储格式
3、orc相比parquet的存储压缩率较高,如下图
4、orc导入数据和数据查询的的速度比parquet快

image

 

 

二、实测结果

存储格式

存储占用(HDFS)

查询SQL

查询耗时(秒)

ORC58.3G

        
  1. select

  2. app_id,user_id,event_id,page_id,page_time

  3. from

  4. tmp.track_event_bucket

  5. where pt='2020-12-09'

  6. and app_id ='11205'

  7. and event_id='OP_E_H5_CLICK_20200513_9415'

35s
Parquet311.9 G 

        
  1. select

  2. app_id,user_id,event_id,page_id,page_time

  3. from

  4. tmp.track_event_parquet

  5. where pt='2020-12-09'

  6. and app_id ='11205'

  7. and event_id='OP_E_H5_CLICK_20200513_9415'

66s

 

上面的测试结果仅供参考,从上面也可以说明orc作为hive存储格式的普适性,无论从存储还是查询效率,orc均占有优势。

参考:

https://developer.aliyun.com/article/226990

 

举报

相关推荐

0 条评论