大数据SQL优化原理与实践系列之原理篇（二）

最新推荐文章于 2026-03-08 23:29:04 发布

原创

最新推荐文章于 2026-03-08 23:29:04 发布 · 1.3k 阅读

标签

#大数据 #sql #数据库

系列前言

本系列文章为阅读学习《大数据SQL优化原理与实践》陈鹤杨国栋◎著一书的学习笔记。在阅读整篇之后，进行提炼和个人思考，欢迎讨论。

此书共分为4篇，包括10章。

认知篇（第1章）主要面向初学者阐述为什么大数据计算或存储引擎发展至今，最终都会选择以SQL作为统一查询语言的原因及利弊，大数据SQL从业者目前面临的主要问题是什么，以及调优的两个根本目标。原理篇（第2章）以深入浅出的方式解读SQL的本质，为了降低读者理解的门槛，本篇还以Hive、Spark和Flink这三个主流的引擎框架为例，从源码的角度探索SQL执行背后的秘密。

实践篇（第3-9章）首先深入解读引擎查询优化器的两大优化策略——基于规则的优化和基于代价的优化的实现原理、示例和局限性，然后以Hive、Saprk、Flink等主流引擎为蓝本，探索SQL优化（包括结构与参数调优、子查询优化、连接优化、聚合优化）的解决思路和方法论，并给出作者的多年总结的一些“坑”。

案例篇（第10章）以实践篇的各种真实需求调优历程为基础，以点带面，以小明大，分享电商、金融、银行这三个典型行业的典型公司大数据SQL调优案例，还给出了内容平台数仓、查询高可用、实时性数仓等业务场景的解决方案。

SQL执行过程

数据处理技术的本质就是存储和计算，面对数据的爆发式增长，传统数据库的数据处理能力显得难以为继，也对数据处理技术（即大数据处理技术）带来了新的场景和挑战。在上一篇中，提到了声明式编程语言SQL作为数据库的通用查询语言，其因为广泛支持的数据查询功能、丰富的内置函数以及ANSI标准化的语言结构便于用户学习和使用。那么SQL语言在数据库和计算引擎中分别是如何运行的呢？面对数据量爆发式增长的同时，用户对于数据处理能力提出了更高的要求，他们又是怎么实现和技术演进的？