Doris数据模型实战：如何为你的业务场景选择最合适的模型（附代码对比）

最新推荐文章于 2026-06-27 23:25:53 发布

原创

最新推荐文章于 2026-06-27 23:25:53 发布 · 976 阅读

标签

#Doris #数据模型 #数据分析 #数据库优化

Doris数据模型实战：如何为你的业务场景选择最合适的模型（附代码对比）

在数据分析领域，选择合适的存储模型往往决定了查询效率和资源消耗的平衡点。Apache Doris作为一款高性能的MPP分析型数据库，提供了三种核心数据模型——Duplicate、Aggregate和Unique，每种模型都针对特定的业务场景进行了优化。本文将深入探讨这三种模型的内在机制，并通过实际代码示例展示它们在不同业务需求下的表现差异。

1. 理解Doris三大数据模型的核心差异

Doris的三种数据模型从根本上解决了不同业务场景下的数据存储和查询需求。理解它们的底层原理是做出正确选择的前提。

Duplicate模型采用最直接的存储方式，完整保留所有导入数据行，不做任何去重或聚合处理。这种设计带来了两个显著特点：

存储空间消耗较大，因为重复数据会被完整保留
查询时可以获取最原始的数据细节，适合需要完整审计追踪的场景

-- 创建Duplicate模型表示例
CREATE TABLE user_actions_dup (
    `user_id` BIGINT,
    `action_time` DATETIME,
    `page_url` VARCHAR(256),
    `device_id` VARCHAR(64)
) DUPLICATE KEY(user_id, action_time)
DISTRIBUTED BY HASH(user_id) BUCKETS 8;

Aggregate模型通过预聚合机制显著提升查询性能，其核心特点包括：

按照AGGREGATE KEY自动合并维度相同的行
支持SUM、MAX、MIN、REPLACE等多种聚合函数
节省存储空间的同时大幅减少查询时的计算量

-- 创建Aggregate模型表示例
CREATE TABLE user_behavior_agg (
    `user_id` BIGINT,
    `date` DATE,
    `province` VARCHAR(20),
    `pv` BIGINT SUM DEFAULT "0",
    `avg_stay_time` DOUBLE AVG DEFAULT "0",
    `last_login` DATETIME REPLACE
) AGGREGATE KEY(user_id, date, province)
DISTRIBUTED BY HASH(user_id) BUCKETS 8;

Unique模型在2.0版本后主要采用写时合并(Merge-on-Write)实现，具有以下优势：