MySQL -- 普通索引与唯一索引

栏目: 数据库 · 发布时间: 6年前

内容简介：当前k树的状态：找到对应的位置后，k1所在的数据页假设：读语句发生在更新语句后不久，

维护一个市民系统，有一个字段为身份证号
业务代码能保证不会写入两个重复的身份证号（如果业务无法保证，可以依赖数据库的唯一索引来进行约束）
常用 SQL 查询语句： SELECT name FROM CUser WHERE id_card = 'XXX'
建立索引
- 身份证号比较大，不建议设置为主键
- 从性能角度出发，选择 普通索引 还是 唯一索引 ？

假设字段k上的值都不重复

查询过程

查询语句： SELECT id FROM T WHERE k=5
查询过程
- 通过B+树从树根开始， 按层搜索到叶子节点 ，即上图中右下角的数据页
- 在 数据页内部 通过 二分法 来定位具体的记录
针对 普通索引
- 查找满足条件的第一个记录 (5,500) ，然后查找下一个记录，直到找到第一个不满足 k=5 的记录
针对 唯一索引
- 由于索引定义了 唯一性 ，查找到第一个满足条件的记录后，就会停止继续查找

性能差异

性能差异： 微乎其微
InnoDB的数据是按照 数据页 为单位进行读写的，默认为16KB
当需要读取一条记录时，并不是将这个记录本身从磁盘读出来，而是以数据页为单位进行读取的
当找到k=5的记录时，它所在的数据页都已经在内存里了
对于 普通索引 而言，只需要多一次 指针寻找 和多一次计算 – CPU消耗很低
- 如果k=5这个记录恰好是所在数据页的最后一个记录，那么如果要取下一个记录，就需要读取 下一个数据页
- 概率很低 ：对于 整型字段 索引，一个数据页（16KB，compact格式）可以存放大概745个值

change buffer

当需要 更新一个数据页 时，如果数据页 在内存中 就 直接更新
如果这个数据页 不在内存中 ，在不影响 数据一致性 的前提下
- InnoDB会将这些 更新操作 缓存在change buffer
- 不需要从磁盘读入这个数据页 （ 随机读 ）
- 在 下次查询 需要访问这个数据页的时候， 将数据页读入内存
  - 然后执行change buffer中与这个数据页有关的操作（merge）
change buffer是可以 持久化 的数据，在内存中有拷贝，也会被写入到磁盘上
将更新操作先记录在channge buffer， 减少随机读磁盘 ，提升语句的执行速度
另外数据页读入内存需要占用buffer pool，使用channge buffer能避免占用内存， 提高内存利用率
change buffer用到是buffer pool里的内存，不能无限增大，控制参数 innodb_change_buffer_max_size

# 默认25，最大50
mysql> SHOW VARIABLES LIKE '%innodb_change_buffer_max_size%';
+-------------------------------+-------+
| Variable_name                 | Value |
+-------------------------------+-------+
| innodb_change_buffer_max_size | 25    |
+-------------------------------+-------+

merge

merge：将change buffer中的操作应用到原数据页
merge的执行过程
- 从磁盘读入数据页到内存（老版本的数据页）
- 从change buffer里找出这个数据页的change buffer记录（可能多个）
  - 然后 依次执行 ，得到 新版本的数据页
- 写入redolog，包含内容： 数据页的表更 + change buffer的变更
merge执行完后，内存中的数据页和change buffer所对应的磁盘页都还没修改，属于脏页
- 通过其他机制，脏页会被刷新到对应的物理磁盘页
触发时机
- 访问这个数据页
- 系统后台线程 定期merge
- 数据库 正常关闭

使用条件

对于 唯一索引 来说，所有的更新操作需要先判断这个操作 是否违反唯一性约束
唯一索引的更新无法使用change buffer，只有普通索引可以使用change buffer
- 主键也是无法使用change buffer的
- 例如要插入 (4,400) ，必须先判断表中是否存在k=4的记录，这个判断的前提是 将数据页读入内存
- 既然数据页已经读入到了内存，直接更新内存中的数据页就好，无需再写change buffer

使用场景

一个数据页在 merge之前 ，change buffer 记录关于这个数据页的变更越多 ， 收益越大
对于 写多读少 的业务，页面在写完后马上被访问的概率极低，此时 change buffer的使用效果最好
- 例如账单类、日志类的系统
如果一个业务的更新模式为： 写入之后马上会做查询
- 虽然更新操作被记录到change buffer，但之后马上查询，又会 从磁盘读取 数据页，触发merge过程
- 没有减少随机读，反而增加了维护change buffer的代价

更新过程

插入(4,400)

目标页在内存中

对于 唯一索引 来说，找到3~5之间的位置， 判断没有冲突 ，插入这个值
对于 普通索引 来说，找到3~5之间的位置，插入这个值
性能差异： 微乎其微

目标页不在内存中

对于 唯一索引 来说，需要 将数据页读入内存 ， 判断没有冲突 ，插入这个值
- 磁盘随机读 ，成本很高
对于 普通索引 来说， 将更新操作记录在change buffer 即可
- 减少了磁盘随机读 ，性能提升明显

索引选择

普通索引与唯一索引，在查询性能上并没有太大差异，主要考虑的是 更新性能 ， 推荐选择普通索引
建议 关闭change buffer 的场景
- 如果所有的更新后面，都伴随着对这个记录的查询
- 控制参数 innodb_change_buffering

mysql> SHOW VARIABLES LIKE '%innodb_change_buffering%';
+-------------------------+-------+
| Variable_name           | Value |
+-------------------------+-------+
| innodb_change_buffering | all   |
+-------------------------+-------+

# Valid Values (>= 5.5.4)
none / inserts / deletes / changes / purges / all

# Valid Values (<= 5.5.3)
none / inserts

# change buffer的前身是insert buffer，只能对insert操作进行优化

change buffer + redolog

更新过程

当前k树的状态：找到对应的位置后，k1所在的数据页 Page 1在内存中 ，k2所在的数据页 Page 2不在内存中

INSERT INTO t(id,k) VALUES (id1,k1),(id2,k2);

MySQL -- 普通索引与唯一索引

# 内存：buffer pool
# redolog：ib_logfileX
# 数据表空间：t.ibd
# 系统表空间：ibdata1

Page 1在内存中，直接更新内存
Page 2不在内存中，在changer buffer中记录： add (id2,k2) to Page 2
上述两个动作计入redolog（ 磁盘顺序写 ）
至此事务完成，执行更新语句的成本很低
- 写两次内存+一次磁盘
由于在事务提交时，会把change buffer的操作记录也记录到redolog
- 因此可以在 崩溃恢复 时，恢复change buffer
虚线为 后台操作 ，不影响更新操作的响应时间

读过程

假设：读语句发生在更新语句后不久， 内存中的数据都还在 ，与系统表空间（ibdata1）和redolog（ib_logfileX）无关

SELECT * FROM t WHERE k IN (k1,k2);

MySQL -- 普通索引与唯一索引

读Page 1， 直接从内存返回 （此时Page 1有可能还是脏页，并未真正落盘）
读Page 2，通过 磁盘随机读 将数据页读入内存，然后应用change buffer里面的操作日志（ merge ）
- 生成一个正确的版本并返回

提升更新性能

redolog ：节省 随机写 磁盘的IO消耗（顺序写）
change buffer ：节省 随机读 磁盘的IO消耗

参考资料

《MySQL实战45讲》

转载请注明出处：http://zhongmingmao.me/2019/01/29/mysql-index-unique-common/

访问原文「 MySQL -- 普通索引与唯一索引」获取最佳阅读体验并参与讨论

以上就是本文的全部内容，希望本文的内容对大家的学习或者工作能带来一定的帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

图解服务器端网络架构

[日] 宫田宽士 / 曾薇薇 / 人民邮电出版社 / 2015-4 / 79.00元

本书以图配文，详细说明了服务器端网络架构的基础技术和设计要点。基础设计是服务器端网络架构最重要的一个阶段。本书就立足于基础设计的设计细分项目，详细介绍各细分项目的相关技术和设计要点。全书共分为5章，分别讲述进行物理设计、逻辑设计、安全设计和负载均衡设计、高可用性设计以及管理设计时所必需的技术和设计要点。一起来看看《图解服务器端网络架构》这本书的介绍吧!

码农工具

MySQL -- 普通索引与唯一索引

查询过程

性能差异

change buffer

merge

使用条件

使用场景

更新过程

插入(4,400)

目标页在内存中

目标页不在内存中

索引选择

change buffer + redolog

更新过程

读过程

提升更新性能

参考资料

图解服务器端网络架构

CSS 压缩/解压工具

SHA 加密

HEX HSV 转换工具