系列前言
本系列文章为阅读学习《大数据SQL优化原理与实践》陈鹤 杨国栋◎著 一书的学习笔记。在阅读整篇之后,进行提炼和个人思考,欢迎讨论。

此书共分为4篇,包括10章。
认知篇(第1章)主要面向初学者阐述为什么大数据计算或存储引擎发展至今,最终都会选择以SQL作为统一查询语言的原因及利弊,大数据SQL从业者目前面临的主要问题是什么,以及调优的两个根本目标。 原理篇(第2章)以深入浅出的方式解读SQL的本质,为了降低读者理解的门槛,本篇还以Hive、Spark和Flink这三个主流的引擎框架为例,从源码的角度探索SQL执行背后的秘密。
实践篇(第3-9章)首先深入解读引擎查询优化器的两大优化策略——基于规则的优化和基于代价的优化的实现原理、示例和局限性,然后以Hive、Saprk、Flink等主流引擎为蓝本,探索SQL优化(包括结构与参数调优、子查询优化、连接优化、聚合优化)的解决思路和方法论,并给出作者的多年总结的一些“坑”。
案例篇(第10章)以实践篇的各种真实需求调优历程为基础,以点带面,以小明大,分享电商、金融、银行这三个典型行业的典型公司大数据SQL调优案例,还给出了内容平台数仓、查询高可用、实时性数仓等业务场景的解决方案。
SQL执行过程
数据处理技术的本质就是存储和计算,面对数据的爆发式增长,传统数据库的数据处理能力显得难以为继,也对数据处理技术(即大数据处理技术)带来了新的场景和挑战。在上一篇中,提到了声明式编程语言SQL作为数据库的通用查询语言,其因为广泛支持的数据查询功能、丰富的内置函数以及ANSI标准化的语言结构便于用户学习和使用。那么SQL语言在数据库和计算引擎中分别是如何运行的呢?面对数据量爆发式增长的同时,用户对于数据处理能力提出了更高的要求,他们又是怎么实现和技术演进的?

&spm=1001.2101.3001.5002&articleId=145076403&d=1&t=3&u=bc763520a5b84001aeb57d630a886072)
4022

被折叠的 条评论
为什么被折叠?



