面试题|无索引如何删除亿级数据？

栏目: 数据库 · 发布时间: 6年前

内容简介：一业务需求某业务表a 数据量大约4.7亿，单表物理大小为370G，其中某些指定xxid='xxx'值的记录大约2亿。受限于磁盘空间比较紧张，需要对在无索引的情况下删除无效数据。如何优雅的删除呢？存在索引的情况下就比较简单，直接利用索引进行删除，写一个for 循环语句每次删除500行，每次判断delete 影响的行数可以累加计算删除了多少行，直到删除结果为0行。

一业务需求

某业务表a 数据量大约4.7亿，单表物理大小为370G，其中某些指定xxid='xxx'值的记录大约2亿。受限于磁盘空间比较紧张，需要对在无索引的情况下删除无效数据。如何优雅的删除呢？

二思路

2.1 xxid本身有索引

存在索引的情况下就比较简单，直接利用索引进行删除，写一个for 循环语句每次删除500行，每次判断delete 影响的行数可以累加计算删除了多少行，直到删除结果为0行。

那么问题来了，如果要求不能创建索引怎么处理？

2.2 xxid 字段无索引

因为表占用的空间已经比较大 370G ，再添加索引会更大。因为没有索引，故我们不能直接像方法一那样根据 where xxxid='xxx' 删除数据，那样更慢，可能会引发故障。

我们采取 分而治之 的方式，基于主键把表的数据分段，比如每段1000行-2000行(如果主键id不连续则实际数据量会小于指定分段数据)。然后在这1000行里面删除指定的数据，这样delete的执行效率会比直接依赖 xxxid='xxx' 好很多。

代码如下:

这个脚本可以记录上一次的id，用上一次id 作为 init_id进行删除。第一次使用的时候需要手工初始化/tmp/del_aid.id 比如写入 0 或者符合条件的最小主键 id。

2.3 如何更快速的删除

这个环节就当做思考题吧，可以不考虑从库的延迟。大家有什么好的思路，可以分享一下。

推荐文章

工具|Explain 使用分析

哪些因素会导致慢查询？

-The End-

本公众号长期关注于数据库技术以及性能优化，故障案例分析，数据库运维技术知识分享，个人成长和自我管理等主题，欢迎扫码关注。

面试题|无索引如何删除亿级数据？

以上所述就是小编给大家介绍的《面试题|无索引如何删除亿级数据？》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对码农网的支持！

查看所有标签

猜你喜欢:

本站部分资源来源于网络，本站转载出于传递更多信息之目的，版权归原作者或者来源机构所有，如转载稿涉及版权问题，请联系我们。

30天自制操作系统

30天自制操作系统

[日] 川合秀实 / 周自恒、李黎明、曾祥江、张文旭 / 人民邮电出版社 / 2012-8 / 99.00元

自己编写一个操作系统，是许多程序员的梦想。也许有人曾经挑战过，但因为太难而放弃了。其实你错了，你的失败并不是因为编写操作系统太难，而是因为没有人告诉你那其实是一件很简单的事。那么，你想不想再挑战一次呢？这是一本兼具趣味性、实用性与学习性的书籍。作者从计算机的构造、汇编语言、C语言开始解说，让你在实践中掌握算法。在这本书的指导下，从零编写所有代码，30天后就可以制作出一个具有窗口系统的32位......一起来看看《30天自制操作系统》这本书的介绍吧!

在线进制转换器

在线进制转换器

各进制数互转换器

MD5 加密

MD5 加密

MD5 加密工具

UNIX 时间戳转换

UNIX 时间戳转换

UNIX 时间戳转换

版权所有，保留一切权利！© 2018-2026 码农网粤ICP备17054400号-3