Doris 将分区和分桶的列设置为不同字段的好处分析-CFANZ编程社区

将分区和分桶的列设置为不同的字段，可以带来多个设计上的好处。低头看下面，让我们通过具体的例子来说明这种设计的好处。

设计示例

假设我们有一个 orders 表，记录了在线商店的订单信息。我们可以根据 order_date 进行分区，并基于 customer_id 进行分桶：

CREATE TABLE orders (
    order_id BIGINT,
    customer_id BIGINT,
    product_id BIGINT,
    order_amount DECIMAL(10, 2),
    order_date DATE
)
PARTITION BY RANGE(order_date) (
    PARTITION p2023 Q1 VALUES LESS THAN ('2023-04-01'),
    PARTITION p2023 Q2 VALUES LESS THAN ('2023-07-01'),
    PARTITION p2023 Q3 VALUES LESS THAN ('2023-10-01'),
    PARTITION p2023 Q4 VALUES LESS THAN ('2024-01-01')
)
DISTRIBUTED BY HASH(customer_id) BUCKETS 10;

设计好处

1. 查询优化

分区裁剪：如果查询条件中包含 order_date，系统可以利用分区裁剪来限制扫描的数据范围，提高查询效率。
分桶局部性：对于涉及 customer_id 的查询（如统计特定客户的订单量），分桶机制能够确保相关数据集中存储在少数几个桶内，便于高效读取和并行处理。

2. 负载均衡

均匀分布：使用 customer_id 作为分桶键有助于实现数据的均匀分布，避免某些桶过载，从而保证整体系统的稳定性和性能。
防止热点：即使某些客户有大量订单，这些订单也会被分散到不同的桶中，减少了单个桶成为热点的可能性。

3. 维护与管理

时间维度管理：按 order_date 分区方便进行数据生命周期管理，例如定期归档或删除旧订单数据，而不影响当前活跃的数据。
客户维度操作：基于 customer_id 的分桶使得针对特定客户群体的操作更加高效，比如批量更新或删除某个客户的订单记录。

4. 多维分析支持

灵活性：当需要同时按照时间和客户两个维度进行复杂分析时（如季度内各客户的销售趋势），这种设计可以充分利用分区和分桶的优势，提供更灵活且高效的查询体验。

实际应用场景

考虑一个场景：我们需要分析2023年第三季度每个客户的订单总额。此时，查询语句可能如下：

SELECT customer_id, SUM(order_amount) AS total_spent
FROM orders
WHERE order_date BETWEEN '2023-07-01' AND '2023-09-30'
GROUP BY customer_id;

在这个查询中：

分区裁剪 确保只扫描 p2023 Q3 分区的数据，大大减少了I/O开销。
分桶局部性 使得对每个 customer_id 的聚合计算可以在对应的桶内完成，提升了并行处理能力。

敲黑板：将分区和分桶的列设置为不同字段可以充分发挥各自的优势，优化查询性能、增强系统稳定性，并简化数据管理和多维分析任务。