程序员经典面试题：为什么MySQL偶尔会选错索引？

栏目: IT技术 · 发布时间: 5年前

在此之前，我做过不少ToC的项目，在ToC的应用场景中，业务一般都是比较简单，基本上没有多少复杂的查询(基本上，只要建立用户ID为索引，就能够大大提升查询效率了。)这两年，也逐渐接触到一些ToB的业务，发现ToB的业务，真的是比ToC的要复杂一些。举个简单的例子，ToB应用中，最痛苦的事情就是组织架构，原本查询一个人的数据，可能变成查询一个小组，一个部门，甚至是一个分公司的数据。

程序员经典面试题：为什么 <a href='https://www.codercto.com/topics/18746.html'>MySQL</a> 偶尔会选错索引？

不仅如此，由于不同职级的员工的查询权限可能不一样。查询条件比ToC场景中复杂得多，所以有时候一张表，会建立好多个不同的索引。后时候我们就会发现，怎么查询莫名其妙就变得很慢了。按道理说，如果命中了我们想要的索引，应该很快才对。

于是，我们就对 Sql 语句进行分析，发现Mysql使用的是另外一个索引，但是在这个业务下，使用另外一个索引会得到更好的结果，为什么Mysql会选错索引呢?很显然，存储很难会去理解业务的实际情况，Mysql也需要一定的算法才能评估出索引的优劣，Mysql是这样进行评分的。

Mysql对索引的评分的首要原则，就是索引的差异度最大，举个例子，假如是一个小学生信息查询系统，我们以出生日期建立索引，那么大概就有365*7个不同的值，假如我们以学生的性别作为索引，那么基本上就只有2个不同的值了，假如一个查询条件同时包含出生日期跟性别，那么Mysql必然优先选基数更大的作为索引，也就是出生日期作为索引。

那但是，Mysql实际上并不理解什么是出生日期，什么是性别，他们是判断哪一个基数更大的呢?非常简单，把索引扫一遍不就知道结果了么?我们只要在索引树上扫一遍，就能够知道不同的Key有多少个。但是，假如我们的数据越来越多，每次都把所有的索引树都扫描一遍并不现实。基于大多数的互联网应用都是读多写少的，Mysql会把索引的评分记录一段时间，但是，每次触发重新评估的时候，仍要花费不少的时间。

Mysql采用抽样调查的方式，随机从各个索引树上面取一定的页数，通过统计这些页数对索引进行评估。现在回到我们现实的开发中，不知道你有没有遇到过这样的问题，一些异常状态占总数量非常少，例如退货退款的订单只占总订单的少数，但是你使用Mysql查询的时候却很命中这个索引。就是因为在Mysql评估分数的时候，大多数时候都会觉得这个索引上面不同数据量很少，所以打了低分。所以，如果你有这种特殊的业务场景，最好进行指定索引。

好了，今天我们简单介绍了mysql的索引选择，不知道对你是否有所启发，欢迎大家关注我，共同学习，共同进步。大家的支持是我继续唠嗑的动力。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持码农网

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

码农书籍

高可用架构（第1卷）

高可用架构社区 / 电子工业出版社 / 2017-11-1 / 108.00元

《高可用架构（第1卷）》由数十位一线架构师的实践与经验凝结而成，选材兼顾技术性、前瞻性与专业深度。各技术焦点，均由极具代表性的领域专家或实践先行者撰文深度剖析，共同组成“高可用”的全局视野与领先高度，内容包括精华案例、分布式原理、电商架构等热门专题，及云计算、容器、运维、大数据、安全等重点方向。不仅架构师可以从中受益，其他IT、互联网技术从业者同样可以得到提升。一起来看看《高可用架构（第1卷）》这本书的介绍吧!

码农工具

程序员经典面试题：为什么MySQL偶尔会选错索引？

高可用架构（第1卷）

RGB转16进制工具

XML 在线格式化

HEX HSV 转换工具