万字长文带你深入Redis底层数据布局
Redis数据库的数据布局Redis 的键值对中的 key 就是字符串对象,而 value 就是指Redis的数据类型,可以是String,也可以是List、Hash、Set、 Zset 的数据类型。
其实是Redis 底层使用了一个全局哈希表保存所有键值对,哈希表的最大好处就是 O(1) 的时间复杂度快速查找到键值对。哈希表其实就是一个数组,数组中的元素叫做哈希桶。
https://seven97-blog.oss-cn-hangzhou.aliyuncs.com/imgs/202404270802767.png
[*]redisDb 布局,表示 Redis 数据库的布局,布局体里存放了指向了 dict 布局的指针;//默认有16个数据库
[*]dict 布局,布局体里存放了 2 个哈希表,正常环境下都是用哈希表1,哈希表2只有在 rehash 的时候才用;
[*]ditctht 布局,表示哈希表的布局,布局里存放了哈希表数组,数组中的每个元素都是指向一个哈希表节点布局(dictEntry)的指针;
[*]dictEntry 布局,表示哈希表节点的布局,布局里存放了 void* key 和 void* value 指针, key 指向的是 String 对象,而 value 就是指Redis的几种数据类型。
struct redisServer {
//...
redisDb *db;
//...
int dbnum; //默认16个
}
typedef struct redisDb {
dict *dict; //全局hash表
//...
} redisDb;
struct dict {
//...
dictht ht; //两个dictEntry,一个开始为空,rehash迁移时使用
//...
long rehashidx; /* rehashing not in progress if rehashidx == -1 */
};
typedef struct dictht {
dictEntry **table; // 哈希表节点数组
unsigned long size; // 哈希表大小
unsigned long sizemask; // 哈希表大小掩码,用于计算索引值,总是等于size-1
unsigned long used; // 该哈希表已有节点的数量
} dictht;
struct dictEntry {//具体的对象
void *key; //key
union {
void *val;
uint64_t u64;
int64_t s64;
double d;
} v;//value
struct dictEntry *next; //下一个节点的指针
void *metadata[];
};void *key 和 void *value 指针指向的就是 Redis 对象。Redis中有全局hash表,key是String,value是不同类型的对象,假如是Java,那可以直接用Map来通用表示。而Redis直接由C语言实现,因此具体的每个对象都由 redisObject 布局表示,用type来表示具体类型,如下:
typedef struct redisObject {
unsigned type: 4; // 对象类型
unsigned storage: 2; // REDIS_VM_MEMORY or REDIS_VM_SWAPPING
unsigned encoding: 4; // 对象所使用的编码
unsigned lru: 22; // lru time (relative to server.lruclock)
int refcount; // 对象的引用计数
void *ptr; // 指向对象的底层实现数据结构
} robj;https://seven97-blog.oss-cn-hangzhou.aliyuncs.com/imgs/202404270802790.png
[*]type,标识该对象是什么类型的对象(String 对象、 List 对象、Hash 对象、Set 对象和 Zset 对象);
[*]encoding,标识该对象使用了哪种底层的数据布局;
[*]ptr,指向底层数据布局的指针。
如图,Redis 数据类型(也叫 Redis 对象)和底层数据布局的对应关图:
https://seven97-blog.oss-cn-hangzhou.aliyuncs.com/imgs/202404270802383.png
[*]默认环境下hash使用listpack存储,当保存的字段-值的数量大于512个大概单个字段的值大于64个字节时,改为hashtable。
[*]默认环境下zSet使用listpack做为存储布局,当集合中的元素大于等于128个或是单个值的字节数大于等于64,存储布局会修改为skiplist。
这几个值都是可以修改的,没必要记;在redis.conf里
hash-max-listpack-entries 512
hash-max-listpack-value 64
zset-max-listpack-entries 128
zset-max-listpack-value 64SDS
Simple Dynamic String,简朴动态字符串
C语言中的缺陷
获取字符串长度复杂度为O(n)
在 C 语言里,字符数组的结尾位置用“\0”表示,意思是指字符串的结束。
因此c语言获取字符串长度的函数 strlen,就是遍历字符数组中的每一个字符,遇到字符为 “\0” 后,就会停止遍历,然后返回已经统计到的字符个数,即为字符串长度,因此复杂度为O(n)
字符串只能保存文本数据
字符数组的结尾位置用“\0”表示
因此,除了字符串的末尾之外,字符串里面不能含有 “\0” 字符,否则最先被程序读入的 “\0” 字符将被误认为是字符串结尾,这个限定使得 C 语言的字符串只能保存文本数据,不能保存像图片、音频、视频文化这样的二进制数据
有大概发生缓冲区溢出
C 语言的字符串是不会记录自身的缓冲区巨细的,以是 strcat 函数假定程序员在执行这个函数时,已经为 dest 分配了足够多的内存,可以容纳 src 字符串中的所有内容,而一旦这个假定不成立,就会发生缓冲区溢出将大概会造成程序运行终止。
https://seven97-blog.oss-cn-hangzhou.aliyuncs.com/imgs/202404270802885.png
SDS布局
https://seven97-blog.oss-cn-hangzhou.aliyuncs.com/imgs/202404270802017.png
[*]len,记录了字符串长度。这样获取字符串长度的时候,只必要返回这个成员变量值就行,时间复杂度只必要 O(1)。
[*]alloc,分配给字符数组的空间长度。这样在修改字符串的时候,可以通过 alloc - len 盘算出剩余的空间巨细,可以用来判断空间是否满足修改需求,假如不满足的话,就会主动将 SDS 的空间扩容至执行修改所需的巨细,然后才执行现实的修改操作。这样就不会发生缓冲区溢出
[*]flags,用来表示不同类型的 SDS。一共设计了 5 种类型,分别是 sdshdr5、sdshdr8、sdshdr16、sdshdr32 和 sdshdr64。
[*]buf[],字符数组,用来保存现实数据。不但可以保存字符串,也可以保存二进制数据。
SDS 的 API 使用二进制的方式来处理 SDS 存放在 buf[] 里的数据,使得 Redis 不但可以保存文本数据,也可以保存任意格式的二进制数据。
SDS的动态其实指的就是动态扩容
hisds hi_sdsMakeRoomFor(hisds s, size_t addlen)
{
... ...
// s目前的剩余空间已足够,无需扩展,直接返回
if (avail >= addlen)
return s;
//获取目前s的长度
len = hi_sdslen(s);
sh = (char *)s - hi_sdsHdrSize(oldtype);
//扩展之后 s 至少需要的长度
newlen = (len + addlen);
//根据新长度,为s分配新空间所需要的大小
if (newlen < HI_SDS_MAX_PREALLOC)
//新长度<HI_SDS_MAX_PREALLOC 则分配所需空间*2的空间
//默认定义HI_SDS_MAX_PREALLOC为(1024*1024)即1M
newlen *= 2;
else
//否则,分配长度为目前长度+1MB
newlen += HI_SDS_MAX_PREALLOC;
...
}
// #define HI_SDS_MAX_PREALLOC (1024*1024)关键在于哈希表插入时会去查抄是都正在Rehash,假如不是,那就往0号hash表中插入;假如是,那就直接往1号hash表中插入,因为假如正在Rehash还往0号hash表中插入,那么最终还是要rehash到1号hash表的
typedef struct listNode {
//前置节点
struct listNode *prev;
//后置节点
struct listNode *next;
//节点的值
void *value;
} listNode;rehash的触发条件
负载因子 = 哈希表已保存节点数量/哈希表巨细
触发 rehash 操作的条件,主要有两个:
[*]当负载因子大于等于 1 ,并且 Redis 没有在执行 bgsave 命令大概 bgrewiteaof 命令,也就是没有执行 RDB 快照或没有举行 AOF 重写的时候,就会举行 rehash 操作。
[*]当负载因子大于等于 5 时,此时说明哈希辩论非常严肃了,不管有没有有在执行 RDB 快照或 AOF 重写,都会强制举行 rehash 操作
整数集合
当一个 Set 对象只包含整数值元素,并且元素数量不大时,就会使用整数集这个数据布局作为底层实现。
typedef struct list {
//链表头节点
listNode *head;
//链表尾节点
listNode *tail;
//节点值复制函数
void *(*dup)(void *ptr);
//节点值释放函数
void (*free)(void *ptr);
//节点值比较函数
int (*match)(void *ptr, void *key);
//链表节点数量
unsigned long len;
} list;保存元素的容器是一个 contents 数组,固然 contents 被声明为 int8_t 类型的数组,但是现实上 contents 数组并不保存任何 int8_t 类型的元素,contents 数组的真正类型取决于 intset 布局体里的 encoding 属性的值。比如:
[*]假如 encoding 属性值为 INTSET_ENC_INT16,那么 contents 就是一个 int16_t 类型的数组,数组中每一个元素的类型都是 int16_t;
[*]假如 encoding 属性值为 INTSET_ENC_INT32,那么 contents 就是一个 int32_t 类型的数组,数组中每一个元素的类型都是 int32_t;
[*]假如 encoding 属性值为 INTSET_ENC_INT64,那么 contents 就是一个 int64_t 类型的数组,数组中每一个元素的类型都是 int64_t;
整数集合升级
将一个新元素加入到整数集合里面,假如新元素的类型(int32_t)比整数集合现有所有元素的类型(int16_t)都要长时,整数集合必要先举行升级,也就是按新元素的类型(int32_t)扩展 contents 数组的空间巨细,然后才能将新元素加入到整数集合里,当然升级的过程中,也要维持整数集合的有序性。
整数集合升级的好处:
假如要让一个数组同时保存 int16_t、int32_t、int64_t 类型的元素,最简朴做法就是直接使用 int64_t 类型的数组。不过这样的话,当假如元素都是 int16_t 类型的,就会造成内存浪费。
使用整数集合主要思想就是为了节省内存开销。
跳表
跳表的上风是能支持平均 O(logN) 复杂度的节点查找。
跳表是在链表基础上改进过来的,实现了一种「多层」的有序链表,这样的好处是能快读定位数据。
struct dictEntry {
void *key;
union {
void *val;
uint64_t u64;
int64_t s64;
double d;
} v;
struct dictEntry *next; /* Next entry in the same hash bucket. */
void *metadata[];
};跳表布局如下:
https://seven97-blog.oss-cn-hangzhou.aliyuncs.com/imgs/202404270803939.png
跳表的相邻两层的节点数量最抱负的比例是 2:1,查找复杂度可以降低到 O(logN)。
Redis中的跳表是两步两步跳的吗?
假如接纳新增节点大概删除节点时,来调整跳表节点以维持比例2:1的方法的话,显然是会带来额外开销的。
跳表在创建节点时候,会生成范围为的一个随机数,假如这个随机数小于 0.25(相当于概率 25%),那么层数就增长 1 层,然后继续生成下一个随机数,直到随机数的效果大于 0.25 结束,最终确定该节点的层数。因为随机数取值在[0,0.25)范围内概率不会凌驾25%,以是这也说明白增长一层的概率不会凌驾25%。这样的话,当插入一个新结点时,只需修改前后结点的指针,而其它结点的层数就不必要随之改变了,这样就降低插入操作的复杂度。
// #define ZSKIPLIST_P 0.25int zslRandomLevel(void) { static const int threshold = ZSKIPLIST_P*RAND_MAX; int level = 1; //初始化为一级索引 while (random() < threshold) level += 1;//随机数小于 0.25就增长一层 //假如level 没有凌驾最大层数就返回,否则就返回最大层数 return (level
页:
[1]