大数据SQL优化原理与实践系列之原理篇(二)

系列前言

本系列文章为阅读学习《大数据SQL优化原理与实践》陈鹤 杨国栋◎著 一书的学习笔记。在阅读整篇之后,进行提炼和个人思考,欢迎讨论。

此书共分为4篇,包括10章。

认知篇(第1章)主要面向初学者阐述为什么大数据计算或存储引擎发展至今,最终都会选择以SQL作为统一查询语言的原因及利弊,大数据SQL从业者目前面临的主要问题是什么,以及调优的两个根本目标。 原理篇(第2章)以深入浅出的方式解读SQL的本质,为了降低读者理解的门槛,本篇还以Hive、Spark和Flink这三个主流的引擎框架为例,从源码的角度探索SQL执行背后的秘密。

实践篇(第3-9章)首先深入解读引擎查询优化器的两大优化策略——基于规则的优化和基于代价的优化的实现原理、示例和局限性,然后以Hive、Saprk、Flink等主流引擎为蓝本,探索SQL优化(包括结构与参数调优、子查询优化、连接优化、聚合优化)的解决思路和方法论,并给出作者的多年总结的一些“坑”。

案例篇(第10章)以实践篇的各种真实需求调优历程为基础,以点带面,以小明大,分享电商、金融、银行这三个典型行业的典型公司大数据SQL调优案例,还给出了内容平台数仓、查询高可用、实时性数仓等业务场景的解决方案。

SQL执行过程

数据处理技术的本质就是存储和计算,面对数据的爆发式增长,传统数据库的数据处理能力显得难以为继,也对数据处理技术(即大数据处理技术)带来了新的场景和挑战。在上一篇中,提到了声明式编程语言SQL作为数据库的通用查询语言,其因为广泛支持的数据查询功能、丰富的内置函数以及ANSI标准化的语言结构便于用户学习和使用。那么SQL语言在数据库和计算引擎中分别是如何运行的呢?面对数据量爆发式增长的同时,用户对于数据处理能力提出了更高的要求,他们又是怎么实现和技术演进的?

数据库 Oracle SQL执行过程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值