0
点赞
收藏
分享

微信扫一扫

Linux的这七大认识误区,你千万别有!

楠蛮鬼影 2023-05-10 阅读 96

1. 数据分层

业界对数仓分层的看法大同小异,大体上认为分为接入层、中间层和应用层三层,不过对中间层的理解有些差异。

2. 接入层(ods)

业务数据一般是采用dataX或者sqoop等以固定频率同步到数仓中构建ODS层;

如果是日志数据则通过flume或者Kafka等同步到数仓中。

接入层一般不会对源数据做任何处理、清洗,便于之后回溯。

3. 明细层(dwd)

理论上明细层数据是对ods层数据进行清洗加工,提高ods层数据的可用性,对于dwd层数据是否同层引用的观点需要权衡:

  1. 一般情况下dwd层不建议同层引用,这样做可以减少明细层任务之间的依赖,减少节点深度。
  2. 但是在某些场景下,ods层到dwd层数据加工逻辑复杂,计算开销大,这时可以权衡考虑适当复用dwd表来构建新的dwd表。

4. 汇总层(dws)

这一层依赖我们的指标体系,将dwd层的数据按照各个维度进行聚合计算。

5. 数据集市层(dwm)

当我们有一些跨业务域的聚合统计需求时,放到这一层。

6. 应用层(app)

这一层主要针对汇总层,进行相关指标的组合,生成报表。

举报

相关推荐

0 条评论