InnoDB——详细说明索引中B+树的操作和原理

文章详细介绍了MySQL5.x版本中InnoDB存储引擎的索引类型,包括B+树索引、全文索引和哈希索引,强调了索引对查询性能的影响以及添加索引的策略。B+树索引是主要的索引类型,虽然能快速定位数据页但不直接找到具体行。文章还讨论了B+树的插入和删除操作,以及如何通过旋转操作减少页拆分。此外,文章阐述了聚集索引和辅助索引的区别,聚集索引在数据组织和查询效率上的优势,以及辅助索引如何通过书签定位数据。

本内容针对Mysql5.x;

索引是应用程序设计和开发的一个重要方面。
若索引太多,应用程序的性能可能会收到影响。
而索引太少,对查询性能又会产生影响。

索引的注意事项:

  1. 如果知道数据的使用,从一开始就应该在需要处添加索引,而不是事后才想起添加。
  2. 添加索引需要通过监控大量的SQL语句进而从中找到问题。
  3. 当然索引也并不是越多越好,索引会占用相当大小的磁盘空间。

InnoDB存储索引概述

InnoDB存储引擎支持下面几种常见的索引:

  • B+树索引
  • 全文索引
  • 哈希索引

同时InnoDB存储引擎的哈希索引是自适应哈希:InnoDB存储引擎会根据表的使用情况自动为表生成哈希索引,无法人为进行干预。
B+树索引就是传统意义上的索引,这是目前关系型数据库系统中查找最为常用和最为有效的索引。

有一个需要注意的问题:B+树索引并不能找到一个给定键值的具体行

B+树索引能找到的只是被查询数据行所在的页。然后数据库通过把页读入内存,再在内存中进行查找,最后得到要查找的数据。

B+树


在介绍B+树索引之前,我们先介绍与之密切相关的一些算法与数据结构;

为什么不用平衡二叉树(AVL)

平衡二叉树的查找性能是比较高的,但不是最高的,最好的性能需要建立一颗最优二叉树。
但是最优二叉树的建立和维护需要大量的操作,因此,用户一般只需建立一颗平衡二叉树即可。

平衡二叉树的查询速度的确很快,但是维护一颗平衡二叉树的代价是非常大的。通常来说,需要1次或多次左旋和右旋来得到插入或更新后树的平衡性。
因此对一颗平衡树的维护是有一定开销的,不过平衡二叉树多用于内存结构对象中,因此维护的开销相对较小。

什么是B+树

B+树由B树和索引顺序访问方法(ISAM,这也是MyISAM引擎最初参考的数据结构)演化而来。
实际使用过程中几乎已经没有使用B树的情况了。

B+树的定义十分复杂,这里做一个简单的介绍:

B+树是为磁盘或其他直接存储辅助设备设计的一种平衡二叉树。在B+树中,所有记录点都是按键值的大小顺序放在同一层的叶子结点上,由各叶子节点指针进行连接。

叶子结点可以找到所有数据

下面看一个B+树,其高度为2,每页可存放4条记录,扇出(fan out,子树?)为5。
所有记录都在叶子节点上,并且是顺序存放的。

B+树的插入操作

B+树的插入必须保证插入后叶子节点中的记录依旧有序,同时需要考虑插入到B+树的三种情况,每种情况都可能会导致不同的插入算法。

Leaf Page满Index Page满操作
NoNo直接将记录插入到叶子节点
YesNo1. 拆分Leaf Page
2. 将中间的节点放入到Index Page中
3. 小于中间节点的记录放左边
4. 大于或等于中间节点的记录放右边
YesYes1. 拆分Leaf Page
2. 小于中间节点的记录放在左边
3. 大于或等于中间节点的放右边
4. 拆分Index Page
5. 小雨中介节点的放在左边
6. 大于中间节点的放在右边
7. 中间节点放入上一层Index Page

初始状态

Leaf Page满,Index Page未满

Leaf Page满,Index Page满

最后插入95,需要做两次拆分

可以看出,不管怎么变化,B+树总是会保持平衡。但是为了保持平衡对于新插入的键值可能需要做大量的拆分页(split)操作。
因为B+树结构主要用于磁盘,页的拆分意味着磁盘的操作,所以应该在可能的情况下尽量减少页的拆分操作。

页插入优化(树旋转操作)

由于拆页非常影响性能,B+同样提供了类似平衡二叉树的旋转(Rotatioin)功能。
旋转发生在Leaf Page已经满,但是其的左右兄弟节点没有满的情况下。
这时B+树并不会急于去做拆分页的操作,而是将记录移到所在页的兄弟节点上。通常情况下,左兄弟会先被检查用来做旋转操作。
我们再用上面初始状态的树来讨论,若插入键值70,其实B+树并不会急于去拆分叶子节点,而是去做旋转:

这样的话,采用旋转操作使B+树减少了一次页的拆分操作,同时高度还是2。

B+树的删除操作

B+树使用填充因子(fill factor)来控制树的删除变化,50%是填充因子可设的最小值

B+树的删除操作同样必须保证删除后叶子节点中的记录依然有序,同插入一样,B+树的删除操作同样需要考虑下吗三种情况,与插入不同的是,删除根据填充因子的变化来衡量。

叶子节点小于填充因子中间节点(Index Page)小于填充因子操作
NoNo直接将记录从叶子节点删除,如果该节点还是Index Page的节点,用该节点的右节点代替
YesNo合并叶子节点和它的兄弟节点,同时更新Index Page
YesYes1. 合并叶子节点和它的兄弟节点
2. 更新Index Page
3. 合并Index Page和它的兄弟节点

此处图片略去…

B+树索引

前面讨论的都是B+树的数据结构及其一般操作。

B+树索引的本质就是B+树在数据库中的实现

但是,B+索引在数据库中有一个特点是**高扇出性,**因此在数据库中B+树的高度一般在2~4层。
也就是说查找某一键值的行记录时最多只需要2~4次I/O

数据库中的B+树索引可以分为聚集索引(clustered index)和辅助索引(secondary index)
但是不管是聚集索引还是辅助索引,内部都是B+树,即高度平衡的,叶子节点存放着所有的数据
聚集索引与辅助索引不同的是,叶子节点存放的是否是一整行的信息。

聚集索引

聚集索引是按照每张表的主键构造一颗B+树,同时叶子节点中存放的即为整张表的行记录数据,
也将聚集索引的叶子节点称为数据页

聚集索引的这个特效决定了索引组织表中数据也是索引的一部分。
同B+树数据结构一样,每个数据页都通过一个双向链表来进行连接。
由于实际的数据页只能按照一颗B+树进行排序,因此每张表只能拥有一个聚集索引
因此,大多数情况下,查询优化器倾向于采用聚集索引。因为聚集索引能够在B+树索引的叶子节点上直接找到数据。
同时,由于定义了数据的逻辑顺序,聚集索引能够特别快地访问针对范围值的查询**。**查询优化器能够快速发现某一段范围的数据页需要扫描

聚集索引的结构

聚集索引中包含数据页(叶子节点)与非数据页(非叶子节点)同时数据页上存放的是完整的每行的记录
而在非数据页的索引页中,存放的仅仅是键值及指向数据页的偏移量,而不是一个完整的行记录。
因此这颗聚集索引树的构造大致如下图所示:

聚集索引的存储并不是物理上连续的,而是逻辑上连续的,否则维护成本会非常高。
有两个特点

  1. 数据页会通过双向链表连接,页按照主键的顺序排序
  2. 每个页中的记录也是通过双向链表进行维护的,物理存储上可以同样不按照主键存储。

同时,对于主键的排序查找和范围查找,聚集索引的速度都非常的快

辅助索引

辅助索引(Secondary Index,也称为非聚集索引,叶子节点并不包含行记录的全部数据。

叶子节点中存储索引键值,除此之外,每个叶子节点中的索引行还包含了一个书签(bookmark)
该书签用来告诉InnoDB存储引擎哪里可以找到与索引相对应的行数据。

由于InnoDB存储引擎是索引组织表,因此InnoDB存储引擎的辅助索引的书签就是相应行数据的聚集索引键。

辅助索引并不影响数据在聚集索引中的组织,因此每张表上可以有多个辅助索引。

如何定位数据

  1. InnoDB存储引擎会遍历辅助索引并通过叶级别的指针获得指向主键索引的主键
  2. 通过主键索引来找到一个完整的行记录

那么如果对于一颗高度为3的辅助索引,同时聚集索引树的高度同样为3,那么一共需要6次逻辑IO访问才能得到最终的一个数据页。

参考文章

内容概要:本文提出了一种基于非合作博弈理论的居民负荷分层调度模型,并结合双层鲸鱼优化算法(Two-level Whale Optimization Algorithm)进行高效求解,模型与算法均通过Matlab代码实现。研究针对电力系统中居民侧用电负荷的复杂调度问题,引入非合作博弈机制刻画各用户之间的利益竞争关系,实现负荷的分层优化分配;同时设计双层优化架构,上层优化资源配置,下层模拟用户自主决策行为,提升了模型的实用性与合理性。通过智能优化算法求解多层级、非凸非线性的博弈模型,有效提高了调度方案的收敛性与全局寻优能力,适用于现代智能电网中的需求侧管理与能源优化场景。; 适合人群:具备电力系统基础理论知识和Matlab编程能力,从事智能电网、能源优化调度、需求侧管理、博弈论应用等方向的科研人员、高校研究生及工程技术人员。; 使用场景及目标:①应用于居民区电力负荷的分层优化调度系统设计与仿真分析;②为非合作博弈在多主体能源系统建模中的应用提供方法论支持;③利用双层鲸鱼算法解决具有嵌套结构的复杂双层优化问题,提升求解效率与调度方案的可行性。; 阅读建议:建议读者结合提供的Matlab代码深入理解模型构建逻辑与算法实现流程,重点关注博弈模型的效用函数设计、纳什均衡求解思路以及双层优化结构的迭代机制,宜配合实际用电数据开展复现实验以验证模型有效性与鲁棒性。
内容概要:本文围绕基于自适应神经模糊推理系统(ANFIS)智能控制器的可再生能源微电网功率管理系统展开研究,结合Simulink仿真实现,深入探讨了微电网中功率的智能调控与经济机组组合调度问题。通过引入ANFIS控制器,有效应对风能、光伏等可再生能源出力的波动性与不确定性,提升系统运行的稳定性与电能质量。研究内容涵盖微电网多源协调控制策略、功率平衡管理、优化调度模型构建及仿真验证,实现了对分布式电源、储能系统和负荷的协同优化,兼顾经济性与可靠性目标,并通过仿真平台验证了所提方法的有效性与优越性。; 适合人群:具备电力系统、自动化或新能源相关专业背景,熟悉Matlab/Simulink仿真环境,从事微电网能量管理、智能控制、能源优化等领域研究的研究生、科研人员及工程技术人员。; 使用场景及目标:①用于高比例可再生能源接入场景下的微电网能量管理系统研发与教学实践;②为实现微电网功率稳定控制与经济高效运行提供先进的智能控制解决方案;③支撑高水平学术论文复现、科研课题攻关及实际工程项目的仿真验证与方案优化。; 阅读建议:建议结合提供的Simulink模型与相关代码进行动手实践,重点关注ANFIS控制器的设计流程、规则库构建与参数调优方法,并通过与传统PID或MPC控制策略的对比实验,深入理解其在动态响应与鲁棒性方面的优势。同时可进一步拓展文中提出的优化调度逻辑,应用于多目标、多约束的复杂实际应用场景中。
内容概要:本文档聚焦于“直流电机双闭环控制Matlab仿真”,系统阐述了基于Matlab/Simulink平台实现直流电机双闭环控制系统(主要包括速度环与电流环)的设计与仿真全过程。通过构建直流电机的数学模型,结合PI控制器进行调控,实现对电机转速和电枢电流的高精度动态控制,验证控制策略的稳定性与响应性能。文档详细介绍了仿真模型的搭建流程、关键参数的整定方法、系统动态波形的分析手段以及仿真结果的有效性验证,体现了经典自动控制理论在实际电机系统中的工程应用,是电机控制与电力电子技术相结合的典型研究案例。; 适合人群:具备自动控制原理、电机与拖动基础、电力电子技术和Matlab/Simulink仿真能力的电气工程、自动化、机电一体化等专业的本科生、研究生及从事电机驱动系统研发的工程技术人员。; 使用场景及目标:①作为高校课程设计或实验教学材料,帮助学生深入理解双闭环调速系统的工作机理与工程实现;②服务于科研项目,为新型电机控制算法(如滑模、模糊PID等)的开发与性能对比提供基础仿真验证平台;③作为工业界产品前期设计的仿真工具,用于评估不同控制策略在动态响应、抗干扰能力和稳态精度方面的可行性。; 阅读建议:建议读者在学习过程中紧密结合自动控制理论知识,亲手在Simulink环境中搭建完整的双闭环仿真模型,通过反复调整PI控制器的比例与积分参数,观察并分析转速、电流的阶跃响应曲线,从而深刻理解反馈控制的本质、系统稳定性条件以及参数整定对动态性能的影响,进而掌握电机控制系统的设计精髓。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值