ToB企服应用市场:ToB评测及商务社交产业平台
标题:
【MySQL 保姆级讲授】深层理解索引及其特性(重点)--上(11)
[打印本页]
作者:
农民
时间:
2024-11-11 17:31
标题:
【MySQL 保姆级讲授】深层理解索引及其特性(重点)--上(11)
1. MySQL与内存和磁盘的联系
我们全部的MySQL数据操作(增删查改),全部是在MySQL的内存中举行的。MySQL在启动的时间会预先开辟一大块内存空间,在合适的时间把我们对数据的操作体如今内存级,MySQL定期的把数据刷新到外设(磁盘)做恒久化。
mysql的服务器本质是在内存中的,全部的数据库的CURD操作全部是在内存中举行的,索引也是如此
。
进步算法服从的因素:1.构造数据的方式,2.算法本身
索引是特定的数据布局构造的布局
2. 认识磁盘
2.1 MySQL与存储
MySQL与存储
MySQL 给用户提供存储服务,存储的都是数据,而数据在磁盘这个外设当中。磁盘是计算机中的一个机
械设备,相比于计算机其他电子元件,磁盘服从是比力低的,在加上IO本身的特征,可以知道,如何进步服从,是MySQL 的一个重要话题。
2.2 磁盘布局
磁盘中的一个盘片
:
2.3 扇区
数据库文件,本质实在就是保存在磁盘的盘片当中。也就是上面的一个个小格子中,就是我们经常所说的扇区。固然,数据库文件很大,也很多,一定需要占据多个扇区。
从上图可以看出来,在半径方向上,距离圆心越近,扇区越小,距离圆心越远,扇区越大
那么,全部扇区都是默认512字节吗?现在是的,我们也如许以为。由于包管一个扇区多大,是由比特位密度决定的。
不过最新的磁盘技术,已经慢慢的让扇区巨细不同了,不过我们如今临时不讨论。
我们在利用Linux,所看到的大部门目次或者文件,实在就是保存在硬盘当中的。(固然,有一些内存文
件系统,如:proc ,sys 之类,我们不讨论)
数据库文件,本质实在就是保存在磁盘的盘片当中,就是一个一个的扇区。
怎么检察数据库文件呢?
展示:
/var/lib/mysql目次:
用于存储 MySQL 数据库的数据文件,包罗表数据、索引、日志文件等。
这个目次是 MySQL 数据库的核心存储位置
检察MySQL数据库中的文件:
进入目次:cd /var/lib/mysql
检察文件:ls
创建一个数据库,再创建一个表,然后子再插入数据:
create database test_database;
use test_database;
create table t1 (id int, name varchar(10));
insert into t1 values(1,'李明'), (2,'李白');
复制代码
查
看创建的文件在linux中的位置
:
进入目次:cd /var/lib/mysql
检察文件:ls
显然,多了一个目次–我们刚才创建的数据库。
进入该数据库并检察文件
:
命令:cd test_database;
检察:ls
显然,我们可以看到创建的表。
db.opt这个文件包罗了数据库的一些选项和参数,例如字符集编码、排序规则等。它是 MySQL 创建数据库时自动生成的一个文本文件。
t1.frm这个文件是表定义文件,包罗了表的布局信息,如字段名称、类型、长度、是否允许为空等。frm 文件是 MySQL 表的元数据文件,用于描述表的布局。
t1.ibd这个文件是表数据文件,包罗了表的实际数据和索引。ibd 文件是 InnoDB 存储引擎特有的数据文件格式,用于存储表的数据和索引信息。
以是,最根本的,找到一个文件的全部,本质,就是在磁盘找到全部保存文件的扇区。而我们能够定位任何一个扇区,那么便能找到全部扇区,由于查找方式是一样的。
2.4 定位扇区
柱面(磁道): 多盘磁盘,每盘都是双面,巨细完全相称。那么同半径的磁道,整体上便构成了一个柱面
每个盘面都有一个磁头,那么磁头和盘面的对应关系便是1对1的
只需要知道,磁头(Heads)、柱面(Cylinder)(等价于磁道)、扇区(Sector)对应的编号。即可在磁盘上定位所要访问的扇区。这种磁盘数据定位方式叫做CHS,不过实际利用的并不是CHS(但是硬件是),而是LBA ,一种线性地址,可以想象成虚拟地址与物理地址。系统将LBA地址末了会转化成为CHS ,交给磁盘去举行数据读取。不过,我们如今不关心转化细节,知道这个东西,让我们逻辑自洽起来即可。
结论
我们如今已经能够在硬件层面定位,任何一个根本数据块了(扇区)。那么在系统软件上,就
直接
按照扇区(512字节,部门4096字节),举行IO交互吗?
答:
不是
如果操作系统直接利用硬件提供的数据巨细举行交互,那么系统的IO代码,就和硬件强相关,换言之,如果硬件发生变化,系统必须跟着变化。
从现在来看,单次IO 512字节,照旧太小了。IO单位小,意味着读取同样的数据内容,需要举行多
次磁盘访问,会带来
服从的降低
。
之前学习文件系统,就是在磁盘的根本布局下建立的,文件系统读取根本单位,就不是扇区,而是
数据块。
故,系统读取磁盘,是以块为单位的,根本单位是4KB
。
磁盘随机访问(Random Access)与一连访问(Sequential Access)
随机访问:本次IO所给出的扇区地址和上次IO给出扇区地址不一连,如许的话磁头在两次IO操作之间需要作比力大的移动动作才能重新开始读/写数据。
一连访问:如果当次IO给出的扇区地址与上次IO结束的扇区地址是一连的,那磁头就能很快的开始这次IO操作,如许的多个IO操作称为一连访问。
因此尽管相邻的两次IO操作在同一时刻发出,但如果它们的哀求的扇区地址相差很大的话也只能称为随机访问,而非一连访问。
磁盘是通过机械运动举行寻址的,一连访问不需要过多的定位,故服从比力高
。
为什么是4kb呢?
内存被分为多个4kb巨细的块,为了让磁盘数据和内存数据举行更好的I/O交互
。
也考虑到 I/O 服从和解耦,磁盘需要被操作系统访问,4kb的巨细是一种弃取,采用局部性原理来进步整机的服从
3. MySQL与磁盘交互根本单位
而MySQL作为一款应用软件,可以想象成一种特殊的文件系统。它有着更高的IO场景,以是,为了进步
根本的IO服从,MySQL 举行IO的
根本单位是16KB
(背面同一利用InnoDB 存储引擎讲解)
查询MySQL举行IO的根本单位:
命令:show global status like 'innodb_page_size;'
16389的单位是字节,
1638/1024 = 16 KB
也就是说,磁盘这个硬件设备的根本单位是512 字节,而MySQL innodb引擎利用16KB举行交互,即MySQL 和磁盘举行数据交互的根本单位是
16KB
。这个根本数据单元,在MySQL 这里叫做page(注意和系统的page区分)
从逻辑上看,MySQL好像和磁盘之间是16KB举行交互,但是MySQL是不能直接与磁盘举行交互的,能与磁盘举行交互的只有操作系统。实际上在操作系统中有文件缓冲区,mysql对操作系统举行16kb的交互,操作系统对磁盘举行4*4kb的交互。
4. 建立共识
MySQL 中的数据文件,是以page为单位保存在磁盘当中的。
MySQL 的CURD 操作,都需要通过计算,找到对应的插入位置,或者找到对应要修改或者查询的数
据。
而只要涉及计算,就需要CPU参与,而为了便于CPU参与,一定要能够先将数据移动到内存当中。
以是在特定时间内,数据一定是磁盘中有,内存中也有。后续操作完内存数据之后,以特定的刷新
战略,刷新到磁盘。而这时,就涉及到磁盘和内存的数据交互,也就是IO了。而此时IO的根本单位
就是Page。
为了更好的举行上面的操作, MySQL 服务器在内存中运行的时间,在服务器内部,就申请了被称为
Buffer Pool
的的大内存空间,来举行各种缓存。实在就是很大的内存空间,来和磁盘数据举行IO交互。
为了更高的服从,一定要尽可能的镌汰系统和磁盘IO的次数。
5. 索引的理解
5.1 建立一个表并查询
建立一个表(设置主键索引)
:
create table user (
id int primary key,
age int not null,
name varchar(16) not null
);
复制代码
我的默认利用 innodb存储引擎
插入数据,id的序次随机
:
insert into user (id, age, name) values(3, 18, '杨过');
insert into user (id, age, name) values(4, 16, '小龙女');
insert into user (id, age, name) values(2, 26, '黄蓉');
insert into user (id, age, name) values(5, 36, '郭靖');
insert into user (id, age, name) values(1, 56, '欧阳锋');
复制代码
查询数据:
命令:select * from user;
没有利用排序命令,为什么查询效果是排序的呢?
下面慢慢表明。
5.2 为何 I/O 交互要是Page
为何MySQL和磁盘举行IO交互的时间,要采用Page的方案举行交互呢?用多少,加载多少不香吗?
如上面的5条纪录,如果MySQL要查找id=2的纪录,第一次加载id=1,第二次加载id=2,一次一条纪录,那么就需要2次IO。如果要找id=5,那么就
需要5次IO
。
但,如果这5条(或者更多)都被保存在一个Page中(16KB,能保存很多纪录),那么第一次IO查找id=2的时
候,整个Page会被加载到MySQL的Buffer Pool中,这里完成了一次IO。但是今后如果在查找id=1,3,4,5等,完全不需要举行IO了,而是直接在内存中举行了。以是,就在单Page里面,大大镌汰了IO的次数。
怎么包管,用户一定下次找的数据,就在这个Page里面?我们不能严格包管,但是有很大概率,由于有局部性原理。通常IO服从低下的最主要矛盾不是IO单次数据量的巨细,而是
IO的次数
。
理解的单个Page
MySQL 中要管理很多数据表文件,而要管理好这些文件,就需要先描述,再构造,我们现在可以简单的理解成一个个独立文件是有一个或者多个Page构成的,每个Page像链表一样链接起来。
不同的Page,在MySQL 中,都是16KB ,利用由于有主键的问题,prev 和next 构成双向链表MySQL 会默认按照主键给我们的数据举行排序,从上面的Page内数据纪录可以看出,数据是有序且彼此关联的。
为什么数据库在插入数据时要对其举行排序呢?我们按正常序次插入数据不是也挺好的吗?
插入数据时排序的目标,就是优化查询的服从。
页内部存放数据的模块,实质上也是一个链表的布局,链表的特点也就是增删快,查询修改慢,以是优化查询的服从是必须的。
正是由于有序,在查找的时间,从头到后都是有效查找,没有任何一个查找是浪费的,而且,如果运气好,是可以提前结束查找过程的
。
理解多个Page
通过上面的分析,我们知道,上面页模式中,只有一个功能,
就是在查询某条数据的时间直接将一
整页的数据加载到内存中,以镌汰硬盘IO次数,从而进步性能
。但是,我们也可以看到,
如今的页
模式内部,实际上是采用了链表的布局,前一条数据指向后一条数据,本质上照旧通过数据的逐条
比力来取出特定的数据
。
如果有1千万条数据,一定需要多个Page来保存1千万条数据,多个Page彼此利用双链表链接起
来,而且每个Page内部的数据也是基于链表的。那么,
查找特定一条纪录,也一定是线性查找。这
服从也太低了
。
那么,怎么进步查询的服从呢?
页目次
我们在看《谭浩强C程序计划》这本书的时间,如果我们要看<指针章节>,找到该章节有两种做法:
从头逐页的向后翻,直到找到目标内容
通过书提供的目次
,发现指针章节在234页(假设),那么我们便直接翻到234页。同时,查找目次的方案,可以序次找,不过由于目次肯定少,以是可以快速进步定位本质上,书中的目次,是多花了纸张的,但是却进步了服从以是,目次,是一种“空间换时间的做法”
单页环境
针对上面的单页Page,我们能否也
引入目次
呢?
固然可以
那么当前,在一个Page内部,我们引入了目次。好比,我们要查找id=4纪录,之前必须线性遍历4次, 才能拿到效果。如今直接通过目次2[3]`,直接举行定位新的起始位置,进步了服从。
如今我们可以再次正式回答上面的问题了,为何通过键值MySQL 会自动排序?
可以很方便引入目次
多页环境
MySQL 中每一页的巨细只有16KB ,单个Page巨细固定,以是随着数据量不停增大,16KB 不可能存下全部的数据,那么必定会有多个页来存储数据。
在单表数据不停被插入的环境下,MySQL 会在容量不足的时间,自动开辟新的Page来保存新的数据,然后通过指针的方式,将全部的Page构造起来。
需要注意,上面的图,是理想布局,各人也知道,现在要包管整体有序,那么新插入的数据,不一定会
在新Page上面,这里仅仅做演示。
如许,我们就可以通过多个Page遍历,Page内部通过目次来快速定位数据。可是,貌似如许也有服从问
题,在Page之间,也是需要MySQL 遍历的,
遍历意味着依旧需要举行大量的IO
,将下一个Page加载到内存,举行线性检测。如许就显得我们之前的Page内部的目次,有点杯水车薪了。
那么如何解决呢?解决方案,实在就是我们之前的思绪,给Page也带上目次。
利用一个目次项来指向某一页,而这个目次项存放的就是将要指向的页中存放的最小数据的键值
。
和页内目次不同的地方在于,这种目次管理的级别是页,而页内目次管理的级别是行
。
此中,每个目次项的构成是:键值+指针。图中没有画全。
存在一个目次页来管理页目次,目次页中的数据存放的就是指向的那一页中最小的数据。有数据,就可
通过比力,找到该访问那个Page,进而通过指针,找到下一个Page。
实在目次页的本质也是页,平凡页中存的数据是用户数据,而目次页中存的数据是平凡页的地址
。
可是,我们每次检索数据的时间,该从哪里开始呢?固然顶层的目次页少了,但是还要遍历啊?
不消担心,可以在加目次页
在查询的时间从最上面的Page开始,一个接一个的找到目次页。
从布局就可以看出,这就是B+树啊!没错,至此,我们已经给我们的表user构建完了主键索引。随便找一个id=?我们发现,如今查找的Page数一定镌汰了,也就意味着IO次数镌汰了,那么服从也就进步了。
复盘一下
Page分为目次页和数据页。目次页只放各个下级Page的最小键值。查找的时间,自定向下找,只需要加载部门目次页到内存,即可完成算法的整个查找过程,大大镌汰了IO次数
InnoDB
在建立索引布局来管理数据的时间,其他数据布局为何不行?
链表?线性遍历?
前文已经表明过,服从太慢
。
二叉搜刮树?
退化问题,可能退化成为线性布局
。
AVL &&红黑树?
固然是均衡或者近似均衡,但是毕竟是二叉布局
,相比力多阶B+,意味着树整体过高,各人都是自顶向下找,层高越低,意味着系统与硬盘更少的IO Page交互。固然你很秀,但是有更秀的。
Hash?
官方的索引实现方式中,MySQL 是支持HASH的,不过InnoDB 和MyISAM 并不支持.Hash跟进其算法特征,决定了固然有时间也很快(O(1)),不过,在面临范围查找就显着不行,另外还有其他差别,有爱好可以查一下。
6. B+树 Vs B 树数
6.1 不同存储引擎支持的索引布局类型
数据布局演示链接:点击进入 里面有各种数据布局的布局。
6.2 B+树 Vs B树
B树?最值得比力的是InnoDB 为何不消B树作为底层索引?
B树
B+树
现在这两棵树,对我们最有意义的区别是:
B树节点,既有数据,又有Page指针,而B+,只有叶子节点有数据,其他目次页,只有键值和Page指针
B+叶子节点,全部相连,而B没有
为何选择B+
节点不存储data,如许一个节点就可以存储更多的key。可以使得树更矮,以是IO操作次数更少。叶子节点相连,更便于举行范围查找。
7. 聚簇索引 Vs 非聚簇索引
7.1 MyISAM Vs InnoDB
MyISAM 存储引擎—主键索引
MyISAM 引擎同样利用B+树作为索引效果,叶节点的data域存放的是数据纪录的地址。下图为表的主索引,Col1 为主键。
此中,MyISAM 最大的特点是,将索引Page和数据Page分离,也就是==叶子节点没有数据,只有对应数据的地址。相较于InnoDB 索引,InnoDB 是将索引和数据放在一起的。
MySAM存储引擎演示:
MySQL:
--创建数据库
create database myisam_test;
use myisam_test;
create table mtest(
id int primary key,
name varchar(11) not null
)engine=MyISAM;
--使用engine=MyISAM
复制代码
Linux:
命令:ls /var/lib/mysql/myisam_test/ -al
MyISAM 这种用户数据与索引数据分离的索引方案,叫做非聚簇索引
Innodb存储引擎演示:
MySQL:
--创建数据库
create database Innodb_test;
use Innodb_test;
create table Itest(
id int primary key,
name varchar(11) not null
)engine=Innodb;
--使用engine=Innodb
复制代码
Linux:
命令:ls /var/lib/mysql/myisam_test/ -al
InnoDB 这种用户数据与索引数据在一起索引方案,叫做聚簇索引
MySQL除了默认会建立主键索引外,我们用户也有可能建立按照其他列信息建立的索引,一样平常这种索引可以叫做辅助(平凡)索引。
对于M yISAM ,建立辅助(平凡)索引和主键索引没有差别,无非就是主键不能重复,而非主键可重复。
下图就是基于MyISAM 的Col2 建立的索引,和主键索引没有差别
同样,InnoDB 除了主键索引,用户也会建立辅助(平凡)索引,我们以上表中的
Col3 建立对应的辅助索引,如下图:
可以看到,InnoDB 的非主键索引中叶子节点并没有数据,而只有对应纪录的key值。
以是通过辅助(平凡)索引,找到目标纪录,需要两遍索引:起首检索辅助索引获得主键,然后用主键到主索引中检索获得纪录。这种过程,就叫做回表查询
为何InnoDB 针对这种辅助(平凡)索引的场景,不给叶子节点也附上数据呢?
答:太浪费空间了。目次Page就全部存放目次,如许才是最大的优化。
7.2 总结
InnoDB 主键索引和平凡索引
答:
主键索引在 InnoDB 中是聚簇索引,这意味着数据行的物理存储序次与主键的序次一致。如果没有显式定义主键,InnoDB 会选择第一个非空的唯一索引作为聚簇索引。如果没有合适的唯一索引,InnoDB 会建一个隐藏的聚簇索引。
辅助索引的叶子节点存储的是主键值,而不是数据行的物理地址。
通过辅助索引查找数据时,起首找到主键值,然后通过主键值在聚簇索引中找到数据行。
MyISAM 主键索引和平凡索引
答:
主键索引和平凡索引在 MyISAM 中都是非聚簇索引,这意味着索引的叶子节点存储的是数据行的物理地址。主键索引和平凡索引在布局上没有区别,只是主键索引是唯一的。
平凡索引的叶子节点存储的是数据行的物理地址。通过索引查找数据时,直接根据物理地址访问数据行。
其他数据布局为何不能作为索引布局,尤其是B+和B
B+ 树的优势
高效的范围查询:
B+ 树的叶子节点是链表情势连接的,这使得范围查询非常高效。
在举行范围查询时,可以从一个叶子节点开始,沿着链表快速遍历多个节点。
较高的扇出(Fan-out):
B+ 树的每个节点可以容纳更多的键值,因此树的高度较低,镌汰了磁盘 I/O 次数。
较低的树高度意味着更快的查询速度。
稳固的性能:
B+ 树的插入和删除操作复杂度为 O(log n),性能稳固。
插入和删除操作不会导致树的高度变化,保持了查询性能的稳固性。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/)
Powered by Discuz! X3.4