mysql性能调优的的目的就是让mysql服务器更快的响应客户的的请求,基于此目的,我将以下八个方面去谈谈MySQL性能调优,分别是性能监控、schema与数据类型优化、执行计划、索引优化、查询优化、分区表、服务参数设置和mysql集群。
一、性能监控
对mysql进行性能调优之前,你得知道mysql的哪个环节导致其运行效率低,所以对mysql性能监控是有必要的。
1、show profile
使用show profile查询剖析工具,可以指定具体的type。此工具默认是禁用的,可以通过服务器变量在绘画级别动态的修改
set profiling=1;
当设置完成之后,在服务器上执行的所有语句,都会测量其耗费的时间和其他一些查询执行状态变更相关的数据,使用如下命令查看。
select * from actor;
在mysql的命令行模式下只能显示两位小数的时间,可以使用如下命令查看具体的执行时间
show profiles;
执行如下命令可以查看详细的每个步骤的时间:
show profile for query 1;
show profile 具体使用如下:
(1) all:显示所有性能信息
show profile all for query n
(2) block io:显示块io操作的次数
show profile block io for query n
(3) context switches:显示上下文切换次数,被动和主动
show profile context switches for query n
(4) cpu:显示用户cpu时间、系统cpu时间
show profile cpu for query n
(5) IPC:显示发送和接受的消息数量
show profile ipc for query n
(6) page faults:显示页错误数量
show profile page faults for query n
(7) source:显示源码中的函数名称与位置
show profile source for query n
(8) swaps:显示swap的次数
show profile swaps for query n
2、performance schema
MySQL的performance schema 用于监控MySQL server在一个较低级别的运行过程中的资源消耗、资源等待等情况。
3、show processlist
使用show processlist查看连接的线程个数,来观察是否有大量线程处于不正常的状态或者其他不正常的特征。
show processlist;

以下是对各个字段的描述
id表示session id
user表示操作的用户
host表示操作的主机
db表示操作的数据库
command表示当前状态(有七种状态,分别是:sleep:线程正在等待客户端发送新的请求、query:线程正在执行查询或正在将结果发送给客户端、locked:在mysql的服务层,该线程正在等待表锁、analyzing and statistics:线程正在收集存储引擎的统计信息,并生成查询的执行计划、Copying to tmp table:线程正在执行查询,并且将其结果集都复制到一个临时表中、sorting result:线程正在对结果集进行排序、sending data:线程可能在多个状态之间传送数据,或者在生成结果集或者向客户端返回数据)
info表示详细的sql语句
time表示相应命令执行时间
state表示命令执行状态
二、schema与数据类型优化
1、数据类型的优化
1.1 更小的通常更好
应该尽量使用可以正确存储数据的最小数据类型,更小的数据类型通常更快,因为它们占用更少的磁盘、内存和CPU缓存,并且处理时需要的CPU周期更少,但是要确保没有低估需要存储的值的范围,如果无法确认哪个数据类型,就选择你认为不会超过范围的最小类型
案例:
设计两张表,设计不同的数据类型,查看表的容量
1.2 简单就好
简单数据类型的操作通常需要更少的CPU周期,例如,
(1) 整型比字符操作代价更低,因为字符集和校对规则是字符比较比整型比较更复杂,
(2) 使用mysql自建类型而不是字符串来存储日期和时间
(3) 用整型存储IP地址
案例:
创建两张相同的表,改变日期的数据类型,查看SQL语句执行的速度
1.3 尽量避免null
如果查询中包含可为NULL的列,对mysql来说很难优化,因为可为null的列使得索引、索引统计和值比较都更加复杂,坦白来说,通常情况下null的列改为not null带来的性能提升比较小,所有没有必要将所有的表的schema进行修改,但是应该尽量避免设计成可为null的列
1.4 实际细则
1.4.1 整数类型
可以使用的几种整数类型:TINYINT,SMALLINT,MEDIUMINT,INT,BIGINT分别使用8,16,24,32,64位存储空间。
尽量使用满足需求的最小数据类型
1.4.2 字符和字符串类型
varchar根据实际内容长度保存数据
(1) 使用最小的符合需求的长度。
(2) varchar(n) n小于等于255使用额外一个字节保存长度,n>255使用额外两个字节保存长度。
(3) varchar(5)与varchar(255)保存同样的内容,硬盘存储空间相同,但内存空间占用不同,是指定的大小 。
(4) varchar在mysql5.6之前变更长度,或者从255一下变更到255以上时时,都会导致锁表。
(5) 应用场景
a、存储长度波动较大的数据,如:文章,有的会很短有的会很长
b、字符串很少更新的场景,每次更新后都会重算并使用额外存储空间保存长度
c、适合保存多字节字符,如:汉字,特殊字符等
char固定长度的字符串
(1)最大长度:255
(2)会自动删除末尾的空格
(3)检索效率、写效率 会比varchar高,以空间换时间
(4)应用场景
a、存储长度波动不大的数据,如:md5摘要
b、存储短字符串、经常更新的字符串
1.4.3 BLOB和TEXT类型
MySQL 把每个 BLOB 和 TEXT 值当作一个独立的对象处理。
两者都是为了存储很大数据而设计的字符串类型,分别采用二进制和字符方式存储。
1.4.4 datetime和timestamp
日期使用规则:
a、不要使用字符串类型来存储日期时间数据
b、日期时间类型通常比字符串占用的存储空间小
c、日期时间类型在进行查找过滤时可以利用日期来进行比对
d、日期时间类型还有着丰富的处理函数,可以方便的对时间类型进行日期计算
e、使用int存储日期时间不如使用timestamp类型
(1)datetime
a、占用8个字节
b、与时区无关,数据库底层时区配置,对datetime无效
c、可保存到毫秒
d、可保存时间范围大
e、不要使用字符串存储日期类型,占用空间大,损失日期类型函数的便捷性
(2)timestamp
a、占用4个字节
b、时间范围:1970-01-01到2038-01-19
c、精确到秒
d、采用整形存储
e、依赖数据库设置的时区
f、自动更新timestamp列的值
(3)date
a、占用的字节数比使用字符串、datetime、int存储要少,使用date类型只需要3个字节
b、使用date类型还可以利用日期时间函数进行日期之间的计算
c、date类型用于保存1000-01-01到9999-12-31之间的日期
1.4.5 使用枚举代替字符串类型
有时可以使用枚举类代替常用的字符串类型,mysql存储枚举类型会非常紧凑,会根据列表值的数据压缩到一个或两个字节中,mysql在内部会将每个值在列表中的位置保存为整数,并且在表的.frm文件中保存“数字-字符串”映射关系的查找表
create table enum_test(e enum('fish','apple','dog') not null);
insert into enum_test(e) values('fish'),('dog'),('apple');
select e+0 from enum_test;
1.4.6 特殊类型数据
人们经常使用varchar(15)来存储ip地址,然而,它的本质是32位无符号整数不是字符串,可以使用INET_ATON()和INET_NTOA函数在这两种表示方法之间转换
例子:
select inet_aton('1.1.1.1')
select inet_ntoa(16843009)
2、合理使用范式和反范式
2.1 范式
优点:
(1)范式化的更新通常比反范式要快
(2)当数据较好的范式化后,很少或者没有重复的数据
(3)范式化的数据比较小,可以放在内存中,操作比较快
缺点:通常需要进行关联
2.2 反范式
优点:
(1)所有的数据都在同一张表中,可以避免关联
(2)可以设计有效的索引;
缺点:表格内的冗余较多,删除数据时候会造成表有些有用的信息丢失
2.3 在企业中很好能做到严格意义上的范式或者反范式,一般需要混合使用
(1)在一个网站实例中,这个网站,允许用户发送消息,并且一些用户是付费用户。现在想查看付费用户最近的10条信息。 在user表和message表中都存储用户类型(account_type)而不用完全的反范式化。这避免了完全反范式化的插入和删除问题,因为即使没有消息的时候也绝不会丢失用户的信息。这样也不会把user_message表搞得太大,有利于高效地获取数据。
(2)另一个从父表冗余一些数据到子表的理由是排序的需要。
(3)缓存衍生值也是有用的。如果需要显示每个用户发了多少消息(类似论坛的),可以每次执行一个昂贵的自查询来计算并显示它;也可以在user表中建一个num_messages列,每当用户发新消息时更新这个值。
3、主键的选择
3.1 代理主键
与业务无关的,无意义的数字序列。
3.2 自然主键
事物属性中的自然唯一标识
3.3 推荐使用代理主键
(1)它们不与业务耦合,因此更容易维护。
(2)一个大多数表,最好是全部表,通用的键策略能够减少需要编写的源码数量,减少系统的总体拥有成本。
4、字符集的选择
字符集直接决定了数据在MySQL中的存储编码方式,由于同样的内容使用不同字符集表示所占用的空间大小会有较大的差异,所以通过使用合适的字符集,可以帮助我们尽可能减少数据量,进而减少IO操作次数。
(1)纯拉丁字符能表示的内容,没必要选择 latin1 之外的其他字符编码,因为这会节省大量的存储空间。
(2)如果我们可以确定不需要存放多种语言,就没必要非得使用UTF8或者其他UNICODE字符类型,这回造成大量的存储空间浪费。
(3)MySQL的数据类型可以精确到字段,所以当我们需要大型数据库中存放多字节数据的时候,可以通过对不同表不同字段使用不同的数据类型来较大程度减小数据存储量,进而降低 IO 操作次数并提高缓存命中率。
5、存储引擎的选择
| MyISAM | InnoDB | |
|---|---|---|
| 索引类型 | 非聚簇索引 | 聚簇索引 |
| 支持事物 | 否 | 是 |
| 支持表锁 | 是 | 是 |
| 支持行锁 | 否 | 是 |
| 支持外键 | 否 | 是 |
| 支持全文索引 | 是 | 是(5.6后支持) |
| 适合操作类型 | 大量select | 大量insert、delete、update |
6、适当的数据冗余
(1)被频繁引用且只能通过 Join 2张(或者更多)大表的方式才能得到的独立小字段。
(2)这样的场景由于每次Join仅仅只是为了取得某个小字段的值,Join到的记录又大,会造成大量不必要的 IO,完全可以通过空间换取时间的方式来优化。不过,冗余的同时需要确保数据的一致性不会遭到破坏,确保更新的同时冗余字段也被更新。
7、适当拆分
当我们的表中存在类似于 TEXT 或者是很大的 VARCHAR类型的大字段的时候,如果我们大部分访问这张表的时候都不需要这个字段,我们就该义无反顾的将其拆分到另外的独立表中,以减少常用数据所占用的存储空间。这样做的一个明显好处就是每个数据块中可以存储的数据条数可以大大增加,既减少物理 IO 次数,也能大大提高内存中的缓存命中率。
三、执行计划
在企业的应用场景中,为了知道优化SQL语句的执行,需要查看SQL语句的具体执行过程,以加快SQL语句的执行效率。
可以使用explain+SQL语句来模拟优化器执行SQL查询语句,从而知道mysql是如何处理sql语句的。
1 执行计划中包含的信息
| Column | Meaning |
|---|---|
| id | The SELECT identifier |
| select_type | The SELECT type |
| table | The table for the output row |
| partitions | The matching partitions |
| type | The join type |
| possible_keys | The possible indexes to choose |
| key | The index actually chosen |
| key_len | The length of the chosen key |
| ref | The columns compared to the index |
| rows | Estimate of rows to be examined |
| filtered | Percentage of rows filtered by table condition |
| extra | Additional information |
1.1 id
select查询的序列号,包含一组数字,表示查询中执行select子句或者操作表的顺序
id号分为三种情况:
(1)、如果id相同,那么执行顺序从上到下
(2)、如果id不同,如果是子查询,id的序号会递增,id值越大优先级越高,越先被执行
1.2 select_type
1.3 table
对应行正在访问哪一个表,表名或者别名,可能是临时表或者union合并结果集
(1)、如果是具体的表名,则表明从实际的物理表中获取数据,当然也可以是表的别名
(2)、表名是derivedN的形式,表示使用了id为N的查询产生的衍生表
(3)、当有union result的时候,表名是union n1,n2等的形式,n1,n2表示参与union的id
1.4 type
type显示的是访问类型,访问类型表示我是以何种方式去访问我们的数据,最容易想的是全表扫描,直接暴力的遍历一张表去寻找需要的数据,效率非常低下,访问的类型有很多,效率从最好到最坏依次是:
system > const > eq_ref > ref > fulltext > ref_or_null > index_merge > unique_subquery > index_subquery > range > index > ALL
一般情况下,得保证查询至少达到range级别,最好能达到ref
--all:全表扫描,一般情况下出现这样的sql语句而且数据量比较大的话那么就需要进行优化。
explain select * from actor;
--index:全索引扫描这个比all的效率要好,主要有两种情况,一种是当前的查询时覆盖索引,即我们需要的数据在索引中就可以索取,或者是使用了索引进行排序,这样就避免数据的重排序
explain select actor_id from actor;
--range:表示利用索引查询的时候限制了范围,在指定范围内进行查询,这样避免了index的全索引扫描,适用的操作符: =, <>, >, >=, <, <=, IS NULL, BETWEEN, LIKE, or IN()
explain select * from actor where actor_id between 1 and 20;
--index_subquery:利用索引来关联子查询,不再扫描全表
explain select * from emp where emp.job in (select job from t_job);
--unique_subquery:该连接类型类似与index_subquery,使用的是唯一索引
explain select * from emp e where e.deptno in (select distinct deptno from dept);
--index_merge:在查询过程中需要多个索引组合使用,没有模拟出来
--ref_or_null:对于某个字段即需要关联条件,也需要null值的情况下,查询优化器会选择这种访问方式
explain select * from emp e where e.mgr is null or e.mgr=7369;
--ref:使用了非唯一性索引进行数据的查找
create index idx_3 on emp(deptno);
explain select * from emp e,dept d where e.deptno =d.deptno;
--eq_ref :使用唯一性索引进行数据查找
explain select * from emp,emp2 where emp.empno = emp2.empno;
--const:这个表至多有一个匹配行,
explain select * from emp where empno = 7369;
--system:表只有一行记录(等于系统表),这是const类型的特例,平时不会出现
1.5 possible_keys
显示可能应用在这张表中的索引,一个或多个,查询涉及到的字段上若存在索引,则该索引将被列出,但不一定被查询实际使用
1.6 key
实际使用的索引,如果为null,则没有使用索引,查询中若使用了覆盖索引,则该索引和查询的select字段重叠。
1.7 key_len
表示索引中使用的字节数,可以通过key_len计算查询中使用的索引长度,在不损失精度的情况下长度越短越好。
1.8 ref
显示索引的哪一列被使用了,如果可能的话,是一个常数
explain select * from emp,dept where emp.deptno = dept.deptno and emp.deptno = 10;
1.9 rows
根据表的统计信息及索引使用情况,大致估算出找出所需记录需要读取的行数,此参数很重要,直接反应的sql找了多少数据,在完成目的的情况下越少越好
explain select * from emp;
1.10 extra
包含额外的信息
--using filesort:说明mysql无法利用索引进行排序,只能利用排序算法进行排序,会消耗额外的位置
explain select * from emp order by sal;
--using temporary:建立临时表来保存中间结果,查询完成之后把临时表删除
explain select ename,count(*) from emp where deptno = 10 group by ename;
--using index:这个表示当前的查询时覆盖索引的,直接从索引中读取数据,而不用访问数据表。如果同时出现using where 表名索引被用来执行索引键值的查找,如果没有,表面索引被用来读取数据,而不是真的查找
explain select deptno,count(*) from emp group by deptno limit 10;
--using where:使用where进行条件过滤
explain select * from t_user where id = 1;
--using join buffer:使用连接缓存,情况没有模拟出来
--impossible where:where语句的结果总是false
explain select * from emp where empno = 7469;
本文详述了MySQL性能调优的八大方面,包括性能监控(如showprofile和performanceschema)、schema优化(如数据类型选择和主键设计)、执行计划分析、索引和查询优化、分区表、服务器参数调整以及集群方案。通过对这些关键点的优化,可以显著提升MySQL服务器的响应速度和整体性能。

2322

被折叠的 条评论
为什么被折叠?



