Doris数据模型实战:如何为你的业务场景选择最合适的模型(附代码对比)
在数据分析领域,选择合适的存储模型往往决定了查询效率和资源消耗的平衡点。Apache Doris作为一款高性能的MPP分析型数据库,提供了三种核心数据模型——Duplicate、Aggregate和Unique,每种模型都针对特定的业务场景进行了优化。本文将深入探讨这三种模型的内在机制,并通过实际代码示例展示它们在不同业务需求下的表现差异。
1. 理解Doris三大数据模型的核心差异
Doris的三种数据模型从根本上解决了不同业务场景下的数据存储和查询需求。理解它们的底层原理是做出正确选择的前提。
Duplicate模型采用最直接的存储方式,完整保留所有导入数据行,不做任何去重或聚合处理。这种设计带来了两个显著特点:
- 存储空间消耗较大,因为重复数据会被完整保留
- 查询时可以获取最原始的数据细节,适合需要完整审计追踪的场景
-- 创建Duplicate模型表示例
CREATE TABLE user_actions_dup (
`user_id` BIGINT,
`action_time` DATETIME,
`page_url` VARCHAR(256),
`device_id` VARCHAR(64)
) DUPLICATE KEY(user_id, action_time)
DISTRIBUTED BY HASH(user_id) BUCKETS 8;
Aggregate模型通过预聚合机制显著提升查询性能,其核心特点包括:
- 按照AGGREGATE KEY自动合并维度相同的行
- 支持SUM、MAX、MIN、REPLACE等多种聚合函数
- 节省存储空间的同时大幅减少查询时的计算量
-- 创建Aggregate模型表示例
CREATE TABLE user_behavior_agg (
`user_id` BIGINT,
`date` DATE,
`province` VARCHAR(20),
`pv` BIGINT SUM DEFAULT "0",
`avg_stay_time` DOUBLE AVG DEFAULT "0",
`last_login` DATETIME REPLACE
) AGGREGATE KEY(user_id, date, province)
DISTRIBUTED BY HASH(user_id) BUCKETS 8;
Unique模型在2.0版本后主要采用写时合并(Merge-on-Write)实现,具有以下优势:
- 保证主键唯一性的同时提供高效的写入性能
- 查询时无需额外去重计算
- 支持部分列更新,适合需要频繁更新的维度表

&spm=1001.2101.3001.5002&articleId=154167337&d=1&t=3&u=80dfe93b744a48cabcaac862c6793a2a)
2946

被折叠的 条评论
为什么被折叠?



