LIMIT和OFFSET分页性能差!今天来介绍如何高性能分页

饭宝  金牌会员 | 2022-9-17 08:39:49 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 576|帖子 576|积分 1728


  • GreatSQL社区原创内容未经授权不得随意使用,转载请联系小编并注明来源。
  • GreatSQL是MySQL的国产分支版本,使用上与MySQL一致。
前言

之前的大多数人分页采用的都是这样:
  1. SELECT * FROM table LIMIT 20 OFFSET 50
复制代码
可能有的小伙伴还是不太清楚LIMIT和OFFSET的具体含义和用法,我介绍一下:

  • LIMIT X 表示: 读取 X 条数据
  • LIMIT X, Y 表示: 跳过 X 条数据,读取 Y 条数据
  • LIMIT Y OFFSET X 表示: 跳过 X 条数据,读取 Y 条数据
对于简单的小型应用程序数据量不是很大的场景,这种方式还是没问题的。
但是你想构建一个可靠且高效的系统,一定要一开始就要把它做好。
今天我们将探讨已经被广泛使用的分页方式存在的问题,以及如何实现高性能分页。
LIMIT和OFFSET有什么问题

OFFSET 和 LIMIT 对于数据量少的项目来说是没有问题的,但是,当数据库里的数据量超过服务器内存能够存储的能力,并且需要对所有数据进行分页,问题就会出现,为了实现分页,每次收到分页请求时,数据库都需要进行低效的全表遍历
全表遍历就是一个全表扫描的过程,就是根据双向链表把磁盘上的数据页加载到磁盘的缓存页里去,然后在缓存页内部查找那条数据。这个过程是非常慢的,所以说当数据量大的时候,全表遍历性能非常低,时间特别长,应该尽量避免全表遍历。
这意味着,如果你有 1 亿个用户,OFFSET 是 5 千万,那么它需要获取所有这些记录 (包括那么多根本不需要的数据),将它们放入内存,然后获取 LIMIT 指定的 20 条结果。
为了获取一页的数据:10万行中的第5万行到第5万零20行需要先获取 5 万行,这么做非常低效!
初探LIMIT查询效率

数据准备


  • 本文测试使用的环境:
  1. [root@zhyno1 ~]# cat /etc/system-release
  2. CentOS Linux release 7.9.2009 (Core)
  3. [root@zhyno1 ~]# uname -a
  4. Linux zhyno1 3.10.0-1160.62.1.el7.x86_64 #1 SMP Tue Apr 5 16:57:59 UTC 2022 x86_64 x86_64 x86_64 GNU/Linux
复制代码

  • 测试数据库采用的是(存储引擎采用InnoDB,其它参数默认):
  1. mysql> select version();
  2. +-----------+
  3. | version() |
  4. +-----------+
  5. | 8.0.25-16 |
  6. +-----------+
  7. 1 row in set (0.00 sec)
复制代码
表结构如下:
  1. CREATE TABLE `limit_test` (
  2.   `id` int(11) NOT NULL AUTO_INCREMENT,
  3.   `column1` decimal(11,2) NOT NULL DEFAULT '0.00',
  4.   `column2` decimal(11,2) NOT NULL DEFAULT '0.00',
  5.   `column3` decimal(11,2) NOT NULL DEFAULT '0.00',
  6.   PRIMARY KEY (`id`)
  7. )ENGINE=InnoDB
  8. mysql> DESC limit_test;
  9. +---------+---------------+------+-----+---------+----------------+
  10. | Field   | Type          | Null | Key | Default | Extra          |
  11. +---------+---------------+------+-----+---------+----------------+
  12. | id      | int           | NO   | PRI | NULL    | auto_increment |
  13. | column1 | decimal(11,2) | NO   |     | 0.00    |                |
  14. | column2 | decimal(11,2) | NO   |     | 0.00    |                |
  15. | column3 | decimal(11,2) | NO   |     | 0.00    |                |
  16. +---------+---------------+------+-----+---------+----------------+
  17. 4 rows in set (0.00 sec)
复制代码
插入350万条数据作为测试:
  1. mysql> SELECT COUNT(*) FROM limit_test;
  2. +----------+
  3. | COUNT(*) |
  4. +----------+
  5. |  3500000 |
  6. +----------+
  7. 1 row in set (0.47 sec)
复制代码
开始测试

首先偏移量设置为0,取20条数据(中间输出省略):
  1. mysql> SELECT * FROM limit_test LIMIT 0,20;
  2. +----+----------+----------+----------+
  3. | id | column1  | column2  | column3  |
  4. +----+----------+----------+----------+
  5. |  1 | 50766.34 | 43459.36 | 56186.44 |
  6. #...中间输出省略
  7. | 20 | 66969.53 |  8144.93 | 77600.55 |
  8. +----+----------+----------+----------+
  9. 20 rows in set (0.00 sec)
复制代码
可以看到查询时间基本忽略不计,于是我们要一步一步的加大这个偏移量然后进行测试,先将偏移量改为10000(中间输出省略):
  1. mysql> SELECT * FROM limit_test LIMIT 10000,20;
  2. +-------+----------+----------+----------+
  3. | id    | column1  | column2  | column3  |
  4. +-------+----------+----------+----------+
  5. | 10001 | 96945.17 | 33579.72 | 58460.97 |
  6. #...中间输出省略
  7. | 10020 |  1129.85 | 27087.06 | 97340.04 |
  8. +-------+----------+----------+----------+
  9. 20 rows in set (0.00 sec)
复制代码
可以看到查询时间还是非常短的,几乎可以忽略不计,于是我们将偏移量直接上到340W(中间输出省略):
  1. mysql> SELECT * FROM limit_test LIMIT 3400000,20;
  2. +---------+----------+----------+----------+
  3. | id      | column1  | column2  | column3  |
  4. +---------+----------+----------+----------+
  5. | 3400001 |  5184.99 | 67179.02 | 56424.95 |
  6. #...中间输出省略
  7. | 3400020 |  8732.38 | 71035.71 | 52750.14 |
  8. +---------+----------+----------+----------+
  9. 20 rows in set (0.73 sec)
复制代码
这个时候就可以看到非常明显的变化了,查询时间猛增到了0.73s。
分析耗时的原因

根据下面的结果可以看到三条查询语句都进行了全表扫描:
  1. mysql> EXPLAIN SELECT * FROM limit_test LIMIT 0,20;
  2. +----+-------------+------------+------------+------+---------------+------+---------+------+---------+----------+-------+
  3. | id | select_type | table      | partitions | type | possible_keys | key  | key_len | ref  | rows    | filtered | Extra |
  4. +----+-------------+------------+------------+------+---------------+------+---------+------+---------+----------+-------+
  5. |  1 | SIMPLE      | limit_test | NULL       | ALL  | NULL          | NULL | NULL    | NULL | 3491695 |   100.00 | NULL  |
  6. +----+-------------+------------+------------+------+---------------+------+---------+------+---------+----------+-------+
  7. 1 row in set, 1 warning (0.00 sec)
  8. mysql> EXPLAIN SELECT * FROM limit_test LIMIT 10000,20;
  9. +----+-------------+------------+------------+------+---------------+------+---------+------+---------+----------+-------+
  10. | id | select_type | table      | partitions | type | possible_keys | key  | key_len | ref  | rows    | filtered | Extra |
  11. +----+-------------+------------+------------+------+---------------+------+---------+------+---------+----------+-------+
  12. |  1 | SIMPLE      | limit_test | NULL       | ALL  | NULL          | NULL | NULL    | NULL | 3491695 |   100.00 | NULL  |
  13. +----+-------------+------------+------------+------+---------------+------+---------+------+---------+----------+-------+
  14. 1 row in set, 1 warning (0.00 sec)
  15. mysql> EXPLAIN SELECT * FROM limit_test LIMIT 3400000,20;
  16. +----+-------------+------------+------------+------+---------------+------+---------+------+---------+----------+-------+
  17. | id | select_type | table      | partitions | type | possible_keys | key  | key_len | ref  | rows    | filtered | Extra |
  18. +----+-------------+------------+------------+------+---------------+------+---------+------+---------+----------+-------+
  19. |  1 | SIMPLE      | limit_test | NULL       | ALL  | NULL          | NULL | NULL    | NULL | 3491695 |   100.00 | NULL  |
  20. +----+-------------+------------+------------+------+---------------+------+---------+------+---------+----------+-------+
  21. 1 row in set, 1 warning (0.00 sec)
复制代码
此时就可以知道的是,在偏移量非常大的时候,就像案例中的LIMIT 3400000,20这样的查询。
此时MySQL就需要查询3400020行数据,然后在返回最后20条数据。
前边查询的340W数据都将被抛弃,这样的执行结果可不是我们想要的。
接下来就是优化大偏移量的性能问题
优化

你可以这样做:
  1. SELECT * FROM limit_test WHERE id>10 limit 20
复制代码
这是一种基于指针的分页。
你要在本地保存上一次接收到的主键 (通常是一个 ID) 和 LIMIT,而不是 OFFSET 和 LIMIT,那么每一次的查询可能都与此类似。
为什么?因为通过显式告知数据库最新行,数据库就确切地知道从哪里开始搜索(基于有效的索引),而不需要考虑目标范围之外的记录。
我们再来一次测试(中间输出省略):
  1. mysql> SELECT * FROM limit_test WHERE id>3400000 LIMIT 20;
  2. +---------+----------+----------+----------+
  3. | id      | column1  | column2  | column3  |
  4. +---------+----------+----------+----------+
  5. | 3400001 |  5184.99 | 67179.02 | 56424.95 |
  6. #...中间输出省略
  7. | 3400020 |  8732.38 | 71035.71 | 52750.14 |
  8. +---------+----------+----------+----------+
  9. 20 rows in set (0.00 sec)
  10. mysql> EXPLAIN SELECT * FROM limit_test WHERE id>3400000 LIMIT 20;
  11. +----+-------------+------------+------------+-------+---------------+---------+---------+------+--------+----------+-------------+
  12. | id | select_type | table      | partitions | type  | possible_keys | key     | key_len | ref  | rows   | filtered | Extra       |
  13. +----+-------------+------------+------------+-------+---------------+---------+---------+------+--------+----------+-------------+
  14. |  1 | SIMPLE      | limit_test | NULL       | range | PRIMARY       | PRIMARY | 4       | NULL | 185828 |   100.00 | Using where |
  15. +----+-------------+------------+------------+-------+---------------+---------+---------+------+--------+----------+-------------+
  16. 1 row in set, 1 warning (0.00 sec)
复制代码
返回同样的结果,第一个查询使用了0.73 sec,而第二个仅用了0.00 sec。
注意:
如果我们的表没有主键,比如是具有多对多关系的表,那么就使用传统的 OFFSET/LIMIT 方式,只是这样做存在潜在的慢查询问题。所以建议在需要分页的表中使用自动递增的主键,即使只是为了分页。
再优化

类似于查询 SELECT * FROM table_name WHERE id > 3400000 LIMIT 20; 这样的效率非常快,因为主键上是有索引的,但是这样有个缺点,就是ID必须是连续的,并且查询不能有WHERE语句,因为WHERE语句会造成过滤数据。那使用场景就非常的局限了,于是我们可以这样:
使用覆盖索引优化
MySQL的查询完全命中索引的时候,称为覆盖索引,是非常快的,因为查询只需要在索引上进行查找,之后可以直接返回,而不用再回数据表拿数据。因此我们可以先查出索引的 ID,然后根据 Id 拿数据。
  1. SELECT * FROM (SELECT id FROM table_name LIMIT 3400000,20) a LEFT JOIN table_name b ON a.id = b.id;
  2. #或者是
  3. SELECT * FROM table_name a INNER JOIN (SELECT id FROM table_name LIMIT 3400000,20) b USING (id);
复制代码
总结


  • 数据量大的时候不能使用OFFSET/LIMIT来进行分页,因为OFFSET越大,查询时间越久。
  • 当然不能说所有的分页都不可以,如果你的数据就那么几千、几万条,那就很无所谓,随便使用。
  • 如果我们的表没有主键,比如是具有多对多关系的表,那么就使用传统的 OFFSET/LIMIT 方式。
  • 这种方法适用于要求ID为数值类型,并且查出的数据ID连续的场景且不能有其他字段的排序。

Enjoy GreatSQL
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
回复

使用道具 举报

0 个回复

正序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

饭宝

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表