MySQL数据库索引原理及优化策略攻略
索引原理
什么是索引
索引是数据库中用于提高检索效率的一种数据结构,它可以帮助我们快速定位到需要查询的数据。
在MySQL中,一个索引就是一种数据结构,它存储着对于一组数据的引用指针,这些指针指向数据库中实际存储的数据行。
索引的优点
- 加速数据检索;
- 缩小数据检索的范围;
- 提高数据的唯一性。
索引的分类
根据实际使用的场景和需要,MySQL中的索引可以分为如下几种:
- 主键索引:由于每个数据表必须要有主键,因此MySQL会默认为主键上建立一个索引,可以使用CREATE TABLE语句来指定主键。
- 唯一性索引:保证索引列的唯一性,可以使用UNIQUE关键字在CREATE TABLE语句中来定义唯一性索引。
- 普通索引:最常见的索引类型,只需要使用CREATE INDEX语句来创建即可。
- 复合索引:由多个索引列组合而成的一种索引类型,可以使用CREATE INDEX语句来创建。
索引的工作原理
MySQL数据库中的索引主要是基于B+树来实现的,B+树是一种具有顺序性的平衡查找树,因此能够相对高效地实现数据的检索。
B+树的原理非常简单,几乎所有的程序员都会,这里不再赘述。如果对B+树不熟悉,建议先进行深入了解。
索引的使用限制
- 在一个数据表中,最多只能定义64个索引;
- 索引本身也是占用存储空间的,因此过多的索引会造成数据库冗余,也会增加查询优化器的复杂度;
- 索引的更新操作会影响索引及其对应的数据行。
优化策略
建立索引
在创建表的时候,需要指明是否需要建立索引。一般需要考虑的指标有:
- 唯一性:是否存在大量重复的数据;
- 过滤性:是否能够帮助排除大量的数据;
- 频繁性:是否经常需要进行查询;
- 数据量:数据条数较大时,需要谨慎考虑索引的建立。
正常情况下,每个表至少需要有一个主键索引,并考虑到业务场景,对其他的索引进行选择性建立。
避免使用DISTINCT
DISTINCT是一个针对列进行去重操作的命令,虽然能够在一定程度上缩小数据检索范围,但是会占据大量的系统资源,造成查询性能的垃圾。
解决的方法是使用合理的索引,或者使用其他的去重方法。
避免使用LIKE语句下的“通配符”
在使用LIKE语句时,使用通配符“%”和“_”会导致数据库不能充分利用索引,因此查询效率比较低。
解决的方法是先查询不含通配符的前缀,然后在应用程序中使用正则表达式来处理字符串。
示例说明
示例1:选择合适的索引类型
比如一个订单表,里面有订单号、下单时间、买家ID、卖家ID、支付状态等字段。假设下单时间是我们要经常用来查询的字段之一。
针对这种场景,我们需要考虑如下几个问题:
- 是否唯一:订单号是唯一的;
- 查询范围:下单时间会被频繁查询,但查询的范围比较小;
- 数据量:一个月可能有几百万的订单数据;
- 符合度:需要查询是否符合某种查询状态(已支付/未支付)。
根据这些问题,我们可以得出如下方案:
- 主键类型可以选择使用UUID生成的32位字符串;
- 对于下单时间,可以使用普通索引;
- 对于支付状态,可以使用普通索引。
示例2:避免使用DISTINCT
比如一张带有学科、姓名、工号、接口地址等字段的教师信息表,我们要用工号查询某个教师所教的所有学科。
在查询时,可以使用以下SQL语句:
SELECT DISTINCT subject FROM teachers WHERE id = 'xxx';
这个查询语句可以很好地实现我们的需求,但是会占用大量的系统资源,造成查询性能的垃圾。
因此我们可以使用以下SQL语句代替上面的语句:
SELECT subject FROM teachers WHERE id = 'xxx' GROUP BY subject;
这个查询语句可以在保证查询结果的情况下,减少系统资源的占用,提高查询性能。