C-10.索引优化与查询优化
都有那些维度可以进行数据库调优?简言之:
- 索引失效,没有充实利用到索引 -- 索引建立
- 关联查询太多JOIN(设计缺陷或不得已的需求) -- SQL优化
- 服务器调优及各个参数设置(缓冲,线程数等) -- 调解my.cnf
- 数据过多 -- 分库分表
关于数据库调优的知识点非常分散。差异的DBMS,差异的公司,差异的职位,差异的项目碰到的问题都不尽相同。
虽然SQL查询优化的技能有很多,但是大方向上完全可以分成物理查询优化和逻辑查询优化两大块。
- 物理查询优化是通过索引和表连接方式等技能来进行优化,这里重点必要掌握索引的利用。
- 逻辑查询优化就是通过SQL等价变更提示查询服从,直白一点就是说,换一种查询写法执行服从可能更高。
1.数据准备
学院表50万条,班级表1万条。
步调1,建表。- CREATE TABLE `class` (
- `id` INT(11) NOT NULL AUTO_INCREMENT,
- `className` VARCHAR(30) DEFAULT NULL,
- `address` VARCHAR(40) DEFAULT NULL,
- `monitor` INT NULL ,
- PRIMARY KEY (`id`)
- ) ENGINE=INNODB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;
- CREATE TABLE `student` (
- `id` INT(11) NOT NULL AUTO_INCREMENT,
- `stuno` INT NOT NULL ,
- `name` VARCHAR(20) DEFAULT NULL,
- `age` INT(3) DEFAULT NULL,
- `classId` INT(11) DEFAULT NULL,
- PRIMARY KEY (`id`)
- #CONSTRAINT `fk_class_id` FOREIGN KEY (`classId`) REFERENCES `t_class` (`id`)
- ) ENGINE=INNODB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;
复制代码 步调2,设置参数。- set global log_bin_trust_function_creators=1;#命令开启:允许创建函数设置
复制代码 步调3,创建函数。- #随机产生字符串
- DELIMITER //
- CREATE FUNCTION rand_string(n INT) RETURNS VARCHAR(255)
- BEGIN
- DECLARE chars_str VARCHAR(100) DEFAULT
- 'abcdefghijklmnopqrstuvwxyzABCDEFJHIJKLMNOPQRSTUVWXYZ';
- DECLARE return_str VARCHAR(255) DEFAULT '';
- DECLARE i INT DEFAULT 0;
- WHILE i < n DO
- SET return_str =CONCAT(return_str,SUBSTRING(chars_str,FLOOR(1+RAND()*52),1));
- SET i = i + 1;
- END WHILE;
- RETURN return_str;
- END //
-
- DELIMITER ;
- #用于随机产生多少到多少的编号 随机产生班级编号
- DELIMITER //
- CREATE FUNCTION rand_num (from_num INT ,to_num INT) RETURNS INT(11)
- BEGIN
- DECLARE i INT DEFAULT 0;
- SET i = FLOOR(from_num +RAND()*(to_num - from_num+1)) ;
- RETURN i;
- END //
- DELIMITER ;
复制代码 步调4:创建存储过程- #创建往stu表中插入数据的存储过程
- DELIMITER //
- CREATE PROCEDURE insert_stu( START INT , max_num INT )
- BEGIN
- DECLARE i INT DEFAULT 0;
- SET autocommit = 0; #设置手动提交事务
- REPEAT #循环
- SET i = i + 1; #赋值
- INSERT INTO student (stuno, name ,age ,classId ) VALUES
- ((START+i),rand_string(6),rand_num(1,50),rand_num(1,1000));
- UNTIL i = max_num
- END REPEAT;
- COMMIT; #提交事务
- END //
- DELIMITER ;
- #假如要删除
- #drop PROCEDURE insert_stu;
- #执行存储过程,往class表添加随机数据
- DELIMITER //
- CREATE PROCEDURE `insert_class`( max_num INT )
- BEGIN
- DECLARE i INT DEFAULT 0;
- SET autocommit = 0;
- REPEAT
- SET i = i + 1;
- INSERT INTO class ( classname,address,monitor ) VALUES
- (rand_string(8),rand_string(10),rand_num(1,100000));
- UNTIL i = max_num
- END REPEAT;
- COMMIT;
- END //
- DELIMITER ;
- #假如要删除
- #drop PROCEDURE insert_class;
复制代码 步调5:调用存储过程- #执行存储过程,往class表添加1万条数据
- CALL insert_class(10000);
- #执行存储过程,往stu表添加50万条数据
- CALL insert_stu(100000,500000);
复制代码 步调6:创建删除某表上索引存储过程- #创建存储过程
- DELIMITER //
- CREATE PROCEDURE `proc_drop_index`(dbname VARCHAR(200),tablename VARCHAR(200))
- BEGIN
- DECLARE done INT DEFAULT 0;
- DECLARE ct INT DEFAULT 0;
- DECLARE _index VARCHAR(200) DEFAULT '';
- DECLARE _cur CURSOR FOR SELECT index_name FROM
- information_schema.STATISTICS WHERE table_schema=dbname AND table_name=tablename AND
- seq_in_index=1 AND index_name <>'PRIMARY' ;
- #每个游标必须使用不同的declare continue handler for not found set done=1来控制游标的结束
- DECLARE CONTINUE HANDLER FOR NOT FOUND set done=2 ;
- #若没有数据返回,程序继续,并将变量done设为2
- OPEN _cur;
- FETCH _cur INTO _index;
- WHILE _index<>'' DO
- SET @str = CONCAT("drop index " , _index , " on " , tablename );
- PREPARE sql_str FROM @str ;
- EXECUTE sql_str;
- DEALLOCATE PREPARE sql_str;
- SET _index='';
- FETCH _cur INTO _index;
- END WHILE;
- CLOSE _cur;
-
- END //
- DELIMITER ;
- #执行存储过程
- CALL proc_drop_index("dbname","tablename");
复制代码 2.索引失效案例
MySQL中提高性能的一个最有效的方式就是对数据表设计合理的索引。索引提供了高效访问数据的方法,并且加速查询的速率,因此索引对查询的速率有着至关重要的影响。
- 利用索引可以快速定位表中的某条数据,从而提高数据库查询的数据,提高数据库的性能。
- 如果查询没有利用索引,查询语句就会扫描表中的所有记录。在数据量大的情况下,这样查询的速率会很慢。
大多数情况下(默认)采用B+树来构建索引。只是空间列类型的索引利用R-树,并且MEMORY表还支持hash索引。
其实,用不用索引,最终都是优化器说了算。优化器是基于什么的优化器?基于cost开销(CostBaseOptimizer),它不是基于规则(Rule-BaseOptimizer),也不是基于语义。怎样开销小,就怎么来。另外,SQL语句是否利用索引,跟数据库版本、数据量、数据选择度都有关系。
2.1 全值匹配
- EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age=30;
- EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age=30 AND classId=4;
- EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age=30 AND classId=4 AND NAME = 'abcd';
复制代码 建立索引前执行- mysql> SELECT SQL_NO_CACHE * FROM student WHERE age=30 AND classId=4 AND NAME = 'abcd';
- Empty set, 1 warning (0.09 sec)
复制代码 建立索引- #创建索引
- CREATE INDEX idx_age ON student(age);
- CREATE INDEX idx_age_classid ON student(age,classId);
- CREATE INDEX idx_age_classid_name ON student(age,classId,NAME);
复制代码 建立索引后执行- mysql> SELECT SQL_NO_CACHE * FROM student WHERE age=30 AND classId=4 AND NAME = 'abcd';
- Empty set, 1 warning (0.00 sec)
复制代码 2.2 最佳左前缀规则
在MySQL建立联合索引时,会遵守最佳左前缀匹配原则,即最左优先,在检索数据时从联合索引的最左边开始匹配。- #1.只能使用上 idx_age索引
- EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.age=30 AND student.name = 'abcd' ;
- #2.不能使用上索引
- EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.classid=1 AND student.name = 'abcd';
- #3.使用idx_age_classid_name索引
- EXPLAIN SELECT SQL_NO_CACHE * FROM student
- WHERE classid=4 AND student.age=30 AND student.name = 'abcd';
复制代码 原因分析:
由于在构建联合索引对应的B+树时,每个页(包罗叶子和非叶子)中,的一条数据存储的列的值的顺序,是定义索引的顺序,所以只有where子句中,存在联合索引的最左侧的列,才可能利用的上该联合索引。
对于上述第一条SQL的分析,为什么只能用idx_age索引,也是同理,对于idx_age_classid_name索引,age列和name列中有个classid列,如果只出现了age列,和name列,就会导致中间断了。
也就是说,联合索引(a,b,c),最佳顺序就是 a = ? and b = ? and c = ?。这样是最完美的利用联合索引的方式,但是只有a,c的话,就会导致无法利用该索引。由于利用a = ? 确定几条数据后,必须利用b列去过滤数据了,但是此时where子句中没有b的条件,所以就无法利用此索引树,去确定满足后面条件的数据了,非要利用此索引的话,可能会导致回表次数过多,执行服从低。
对于第三条SQL,能利用上idx_age_classid_name索引的分析,由于有查询优化器的存在,虽然在where子句中写的条件的顺序是,先classid 后age后name,但是查询优化器,会做一个操作,尝试将条件子句的顺序,转换成联合索引定义的顺序,从而完美的利用的联合索引。- #删除这两个索引
- DROP INDEX idx_age ON student;
- DROP INDEX idx_age_classid ON student;
- #再次执行该语句
- EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.age=30 AND student.name = 'abcd' ;
- #这里不展示具体执行结果,直接说结论
- #使用上了idx_age_classid_name索引,但是key_len的长度是5
- #而age列是int类型,且可以为null 4 + 1刚好是5B
- #也就是说,该条语句只使用了联合索引的age列进行过滤,然后根据对应的id值,进行回表,在use where进行过滤。符合上面的原因分析
复制代码 结论:MySQL可以为一张表的多个字段创建索引,一个索引可以包罗16个字段。对于多列索引,过滤条件要利用索引必须按照索引的建立顺序,依次满足,一但跳过某个字段,索引后面的字段都无法利用。如果查询条件中没有利用这些字段中第1字段时,联合索引将失效。也即不会被利用。
扩展Alibaba《Java开发手册》
索引文件具有B-Tree的最左匹配特性,如果左边的之值未确定,那么无法利用该索引。
2.3 主键插入顺序
对于一个利用InnoDB存储引擎的表来说,在我们没有显式的创建索引时,表中的数据实际上都是存储在聚簇索引的叶子节点的。而记录又是存储在数据页中的,数据页和记录又是按照记录主键值从小到大的顺序进行排序,所以如果我们插入的记录的主键值是依次增大的话,那我们每插满一个数据页就换到下一个数据页继续插,而如果我们插入的主键值忽大忽小的话,就比较麻烦了,假设某个数据页存储的记录已经满了,它存储的主键值在1~100之间:
如果此时再插入一条主键为9的记录,那它插入的位置就如下图:
可这个数据页已经满了,再插进来咋办呢?我们必要把当前页面分裂成两个页面,把本页中的一些记录移动到新创建的这个页中。页面分裂和记录移位意味着什么?意味着: 性能损耗 !所以如果我们想只管避免这样无谓的性能损耗,最好让插入的记录的主键值依次递增,这样就不会发生这样的性能损耗了。所以我们建议:让主键具有AUTO_INCREMENT,让存储引擎自己为表天生主键,而不是我们手动插入 ,
我们自定义的主键列 id 拥有AUTO_INCREMENT属性,在插入记录时存储引擎会自动为我们填入自增的主键值。这样的主键占用空间小,顺序写入,减少页分裂。
2.4 计算、函数导致索引失效
- CREATE INDEX idx_name ON student(`name`);
- #此语句比下一条要好!(能够使用上索引)
- #执行结果使用上索引 idx_name
- EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.name LIKE 'abc%';
- #未使用索引 type列的值是ALL 全表扫描
- EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE LEFT(student.name,3) = 'abc';
- #原因,在使用完函数后,MySQL只能根据函数的结果,去和给定的值,对比。所以无法使用上索引
复制代码- CREATE INDEX idx_sno ON student(stuno);
- #未使用索引 type列的值是ALL 全表扫描
- EXPLAIN SELECT SQL_NO_CACHE id, stuno, NAME FROM student WHERE stuno+1 = 900001;
- #原因,在进行计算后,MySQL只能根据计算的结果,去和给定的值,对比。所以无法使用上索引
- #执行结果使用上索引 idx_sno
- EXPLAIN SELECT SQL_NO_CACHE id, stuno, NAME FROM student WHERE stuno = 900000;
复制代码 2.5 类型转换导致索引失效
- #无法使用idx_name索引 type列是ALL 全表扫描
- EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE NAME = 123;
- #相当于,MySQL,对于类型不匹配的,会尝试使用隐式的函数转换成目标类型,这样就会导致无法使用索引。
- #使用idx_name索引
- EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE NAME = '123';
复制代码 2.6 范围条件右边的列索引失效
右边,是指在联合索引的列的右边的列,而不是where子句中的右边的列无法被利用。- SHOW INDEX FROM student;
- #根据数据库和表名删除除主键外的索引
- CALL proc_drop_index('atguigudb3','student');
- #创建联合索引
- CREATE INDEX idx_age_classId_name ON student(age,classId,`name`);
- #会使用上idx_age_classId_name 但是key_len的长度是10
- #age和classId都是int类型,都可以为null 所以是 4 + 1 + 4 + 1=10B 也就是在联合索引中,未使用上name列
- #1.
- EXPLAIN SELECT SQL_NO_CACHE * FROM student
- WHERE student.age=30 AND student.classId > 20 AND student.name = 'abc' ;
- #创建一个age,name,classId的索引
- CREATE INDEX idx_age_name_cid ON student(age,`name`,classId);
- #可以使用idx_age_name_cid索引
- EXPLAIN SELECT SQL_NO_CACHE * FROM student
- WHERE student.age=30 AND student.name = 'abc' AND student.classId>20;
- #此时执行第一条语句,也会使用idx_age_name_cid,因为mysql会自动改变条件条件子句的顺序
复制代码应用开发中范围查询,例如:金额查询,日期查询往往都是范围查询。应该把查询条件放在where语句末了。(创建的联合索引中,务必把范围涉及到的字段写在末了)
2.7 不等于(!= 或 )索引失效
- CREATE INDEX idx_name ON student(NAME);
- #不能使用idx_name索引 type列的值是ALL
- EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.name <> 'abc' ;
- #不能使用idx_name索引 type列的值是ALL
- EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.name != 'abc' ;
复制代码 2.8 is null可以利用索引,is not null无法利用索引
- #可以使用idx_age_classId_name索引
- EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age IS NULL;
- #无法使用索引 type列的值是ALL
- EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age IS NOT NULL;
复制代码结论:最好在设计数据表的时候就将字段设置为 NOT NULL约束,比如你可以将INT类型的字段默认值设置为0。将字符类型的默认值设置为空字符串('‘)。
拓展:同理,在查询中利用not like 也无法利用索引,导致全表扫描。
2.9 like以通配符%开头索引失效
在利用LIKE关键字进行查询的sql中,如果匹配字符串"%"开头的,索引就会失效。只有"%"不在第一个位置,索引才会起作用。- #使用idx_name索引
- EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE NAME LIKE 'ab%';
- #无法使用idx_name索引
- EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE NAME LIKE '%ab%';
复制代码拓展:Alibaba《Java开发手册》
【强制】页面搜索严禁左模糊或者全模糊,如果必要请走搜索引擎来办理。
2.10 OR前后存在非索引的列,索引失效
在WHERE子句中,如果在OR前的条件列进行了索引,而在OR后的条件列没有进行索引,那么索引会失效。也就是说,OR前后的两个条件中的列都是索引时,查询中才利用索引。
由于OR的含义就是两个只要满足一个即可,因此只有一个条件列进行了索引是没有意义的,只要有条件列没有进行索引,就会进行全表扫描,因此索引的条件列也会失效。
查询语句利用OR关键字的情况:- CALL proc_drop_index('atguigudb3','student');
- CREATE INDEX idx_age ON student(age);
- #type列的值是ALL
- EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age = 10 OR classid = 100;
- CREATE INDEX idx_cid ON student(classid);
- #建立该索引后,执行,type 值是index_merge索引合并
复制代码 2.11 数据库和表的字符集统一利用utf8mb4
统一利用utf8mb4( 5.5.3版本以上支持)兼容性更好,统一字符集可以避免由于字符集转换产生的乱码。差异的字符集进行比较前必要进行转换会造成索引失效。
2.12 建议
一般性建议:
- 对子单列索引,只管选择针对当前query过滤性更好的索引。
- 在选择组合索引的时候,当前query中过滤性最好的字段在索引字段顺序中,位置越靠前越好。
- 在选择组合索引的时候,只管选择能够包罗当前query中的where子句中更多字段的索引。
- 在选择组合索引的时候,如果某个字段可能出现范围查询时,只管把这个字段放在索引次序的末了面。
总之,书写SQL语句时,只管避免造成索引失效的情况。
3.关联查询优化
3.1 数据准备
- #分类
- CREATE TABLE IF NOT EXISTS `type` (
- `id` INT(10) UNSIGNED NOT NULL AUTO_INCREMENT,
- `card` INT(10) UNSIGNED NOT NULL,
- PRIMARY KEY (`id`)
- );
- #图书
- CREATE TABLE IF NOT EXISTS `book` (
- `bookid` INT(10) UNSIGNED NOT NULL AUTO_INCREMENT,
- `card` INT(10) UNSIGNED NOT NULL,
- PRIMARY KEY (`bookid`)
- );
- #向分类表中添加20条记录
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- #向图书表中添加20条记录
- INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO book(card) VALUES(FLOOR(1 + (RAND() * 20)));
复制代码 3.2 左外连接
- mysql> EXPLAIN SELECT SQL_NO_CACHE * FROM `type` LEFT JOIN book ON type.card = book.card
复制代码
指向结果看,type都是ALL
添加索引优化- CREATE INDEX idx_book_card ON book(card); #被驱动表建立索引,避免全表扫描
复制代码- mysql> EXPLAIN SELECT SQL_NO_CACHE * FROM `type` LEFT JOIN book ON type.card = book.card;
复制代码
可以看到第二行的 type 变为了 ref,rows 也酿成了1优化比较显着。这是由左连接特性决定的。LEFT JOIN条件用于确定如何从右表搜索行,左边一定都有,所以右边是我们的关键点,一定必要建立索引。这是由于,在外连接中的特性是,左外连接中,左表是主表,左表中的数据是一定要保存的,所以,就必须对左表进行全表扫描。而从表的连接字段建立索引的话,就可以利用索引,去优化利用主表的数据,在从表中查询的这一步调。- CREATE INDEX idx_type_card ON `type`(card); #驱动表的连接列,建立索引
复制代码- mysql> EXPLAIN SELECT SQL_NO_CACHE * FROM `type` LEFT JOIN book ON type.card = book.card;
复制代码
从结果看,type表虽然也利用了,索引,但是rows的行数是20,也就是说,照旧相称于扫描了全表,不过利用索引优化了这一步。- DROP INDEX idx_book_card ON book;#移除被驱动表card列索引
复制代码- mysql> EXPLAIN SELECT SQL_NO_CACHE * FROM `type` LEFT JOIN book ON type.card = book.card;
复制代码
被驱动表book变回了ALL全表扫描。
3.3 采用内连接
- DROP INDEX idx_type_card ON type;#移除type表的card列索引
复制代码 利用inner join,内连接,没有主从表之分。由select查询优化器自己根据查询成本,选择驱动表和被驱动表。- mysql> EXPLAIN SELECT SQL_NO_CACHE * FROM type INNER JOIN book ON type.card=book.card;
复制代码- CREATE INDEX idx_book_card ON book(card);#book表添加card列索引,优化
- EXPLAIN SELECT SQL_NO_CACHE * FROM `type` INNER JOIN book ON type.card=book.card;
复制代码- CREATE INDEX idx_type_card ON type(card);#type表添加card列索引,优化
- EXPLAIN SELECT SQL_NO_CACHE * FROM `type` INNER JOIN book ON type.card=book.card;
复制代码- DROP INDEX idx_type_card ON book;
- EXPLAIN SELECT SQL_NO_CACHE * FROM `type` INNER JOIN book ON type.card=book.card;
复制代码
结论:对于内连接来讲,如果表的连接条件中只能有一个字段有索引,则有索引的字段所在的表会被作为被驱动表出现。- #再次添加book表card列的索引
- CREATE INDEX idx_book_card ON book(card);
- #向type表中添加数据(20条数据)
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- INSERT INTO `type`(card) VALUES(FLOOR(1 + (RAND() * 20)));
- EXPLAIN SELECT SQL_NO_CACHE * FROM `type` INNER JOIN book ON type.card = book.card;
复制代码
结论:对于内连接来说,在两个表的连接条件都存在索引的情况下,会选择小表作为驱动表。“小表驱动大表”。
3.4 JOIN语句原理
join方式连接多个表,本质就是各个表之间数据的循环匹配。MySQL5.5版本之前,MySQL只支持一种表间关联方式,就是嵌套循环(Nested Loop Join)。如果关联表的数据量很大,则join关联的执行时间会非常长。在MySQL5.5以后的版本中,MySQL通过引入BNLJ算法来优化嵌套执行。
1.驱动表和被驱动表
- SELECT * FROM A JOIN B ON ...
复制代码 A一定是驱动表吗?不一定,优化器会根据你查询语句做优化,决定先查哪张表。先查询的表就是驱动表,反之就是被驱动表。利用explain关键字查看。
- SELECT * FROM A LEFT JOIN B ON ...
- #或
- SELECT * FROM A RIGHT JOIN B ON ...
复制代码- #4)JOIN的底层原理
- CREATE TABLE a(f1 INT, f2 INT, INDEX(f1))ENGINE=INNODB;
- CREATE TABLE b(f1 INT, f2 INT)ENGINE=INNODB;
- INSERT INTO a VALUES(1,1),(2,2),(3,3),(4,4),(5,5),(6,6);
- INSERT INTO b VALUES(3,3),(4,4),(5,5),(6,6),(7,7),(8,8);
- #测试1
- EXPLAIN SELECT * FROM a LEFT JOIN b ON(a.f1=b.f1) WHERE (a.f2=b.f2);
复制代码
结论,从结果看,b是驱动表,a是被驱动表。这是底层将sql语句改写成内连接,这是由于WHERE (a.f2=b.f2) a,b都是只有两个字段,都相等就是内连接。所以,外连接也不一定主表就是驱动表。当然很少上述这种情况。
2.Simple Nested-Loop Join(简单嵌套循环连接)
在连接条件上都无索引的情况下,算法相称简单,从表A中取一条数据,遍历B表,将匹配成功的记录,当到暂时表,以此类推,驱动表A的每一张表与被驱动表进行判断。
这种方式服从很低,上述表A数据100条,B数据1000条计算,A*B=10万次。
A代表A表的条数,B代表B表的条数(条数是指,满足ON条件且满足WHERE条件的行数)
开销统计SNLJ外表扫描次数1内表扫描次数A读取记录数A + B*AJOIN比较次数B * A回表读取记录次数0当然mysql不会利用这中方式进行表的连接,后面出现了Nested-Loop Join优化算法。
3.Index Nested-Loop Join(索引嵌套循环连接)
Index Nested-Loop Join其优化的思绪主要是为了减少内层表数据的匹配次数,所以要求被驱动表上的连接条件列上必须有索引才行。通过外层表匹配条件直接与内层表索引进行匹配,避免和内层表的每条记录去进行比较,这样极大的减少了对内层表的匹配次数。
驱动表中的每条记录通过被驱动表的索引进行访问,由于索引查询的成本是比较固定的,故mysql优化器都倾向于利用记录数少的表作为驱动表(外表)。
A代表A表的条数,B代表B表的条数(条数是指,满足ON条件且满足WHERE条件的行数)
开销统计SNLJINLJ外表扫描次数11内表扫描次数A0读取记录数A + B*AA + B(匹配)JOIN比较次数B * AA*Index(索引数的层数)回表读取记录次数0B(匹配的记录条数)4.Block Nested-Loop Join(块嵌套循环连接)
如果存在索引,那么会利用index的方式进行join,如果join的列没有索引,被驱动表要扫描的次数太多了。每次访问被驱动表,其表中的记录都会被加载到内存中,然后再从驱动表中取一条与其匹配,匹配竣事后清除内存,然后再从驱动表中加载一条记录,然后把被驱动表的记录在加载到内存匹配,这样周而复始,大大增加了IO的次数。为了减少被驱动表的IO次数,就出现了Block Nested-Loop Join的方式。
不再是逐条获取驱动表的数据,而是一块一块的获取,引入了join buffer缓冲区,将驱动表join相关的部分数据列(大小受join buffer的限制)缓存到join buffer中,然后全表扫描被驱动表,被驱动表的每一条记录一次性和join buffer中的所有驱动表记录进行匹配(内存中操作),将简单嵌套循环中的多次比较合并成一次,降低了被驱动表的访问频率。
注意:
这里缓存的不只是关联表的列, select后面的列也会缓存起来。
在一个有N个join关联的sql中会分配N-1个join buffer。所以查询的时候只管减少不必要的字段,可以让join buffer中可以存放更多的列。
驱动表中的每条记录通过被驱动表的索引进行访问,由于索引查询的成本是比较固定的,故mysql优化器都倾向于利用记录数少的表作为驱动表(外表)。
A代表A表的条数,B代表B表的条数(条数是指,满足ON条件且满足WHERE条件的行数)
开销统计SNLJINLJBNLJ外表扫描次数111内表扫描次数A0(A * used_column_size) / join_buffer_size + 1(如果能整除不加1)读取记录数A + B*AA + B(匹配)A + B * (A * used_column_size / join_buffer_size)JOIN比较次数B * AA*Index(索引数的层数)B * A回表读取记录次数0B(匹配的记录条数)0参数设置
- SHOW VARIABLES LIKE '%optimizer_switch%';#指令查看默认是开启的
复制代码 驱动表能不能一次加载完,要看join buffer能不能存储所有的数据,默认情况下join_buffer_size=256k。- mysql> SHOW VARIABLES LIKE 'join_buffer_size';
- +------------------+--------+
- | Variable_name | Value |
- +------------------+--------+
- | join_buffer_size | 262144 |
- +------------------+--------+
- 1 row in set (0.01 sec)
复制代码 join_buffer_size的最大值在32位系统可以申请4G,而在64位操做系统下可以申请大于4G的Join Buffer空间(64位Windows除外,其大值会被截断为4GB并发出警告)。
5.Join小结
1、团体服从比较:INLJ > BNLJ > SNLJ
2、永久用小结果集驱动大结果集(其本质就是减少外层循环的数据数量) (小的度量单位指的是表行数*每行大小)
[code]select t1.b, t2.* from t1 straight_join t2 on (t1.b=t2.b) where t2.id |