redis中hash数据结构及说明

2023-01-19 09:19 数据库作者：酒剑随马@

hash的数据结构

hash底层数据结js构的实现包括两种：ziplist和字典当
保存的所有键值对字符串长度小于 64 字节并且键值对数量小于 512 时使用ziplist ，否则使用字典的方式

ziplist底层实现

ziplist是为了提高存储效率而设计的一种特殊编码的双向链表。它可以存储字符串或者整数，存储整数时是采用整数的二进制而不是字符串形式存储。

他能在O(1)的时间复杂度下完成list两端的push和pop操作。

但是因为每次修改操作都需要重新分配ziplist的内存，所以实际复杂度和ziplist的内存使用量相关

redis中hash数据结构及说明

ziplist 中包含有zlbytes、zltail、zllen、entry、zlend等属性

zlbytes：表示整个ziplist所占的空间大小，占4个字节
zltail：压缩列表尾元素相对于压缩列表起始地址的偏移量，占4个字节
zllen：压缩列表的元素数目，占两个字节；那么当压缩列表的元素数目超过(2^16)-1怎么处理呢？此时通过zllen字段无法获得压缩列表的元素数目，必须遍历整个压缩列表才能获取到元素数目
zlend：压缩列表的结尾，占一个字节，恒为0xFF（255）
entry：压缩列表存储的元素，可以为字节数组或者整数

entry 中包含有previous_entry_length、encoding、content等属性

previous_entry_length：记录前一个节点的长度

该属性根据前一个节点的大小不同可以是1个字节或者5个字节；如果数值小于254，那就只用一个字节来表示长度，如果长度大于等于2开发者_Hbase54就用5个字节，第一个字节是固定值254(FE)来标识这是个特殊的数据，剩下的4个字节来表示实际的长度

为什么要这么设计？

压缩列表目的是为了尽可能的节省存储空间，数据进行紧邻存储在一块连续的内存区域中；压缩表中元素的长度的是不同的，且为了减少存储空间，并没有保存前后节点的指针，无法通过后退指针来找到上一个元素，而通过保存上一个节点的长度，用当前的地址减去这个长度，就可以很容易的获取到了上一个节点的位置，通过一个一个节点向前回溯，来达到从表尾往表头遍历的操作

encoding：数据的编码形式（字符串还是数字，长度是多少）
content：实际存储的数据

修改操作耗费性能：ziplist在内存中是高度紧凑的连续存储，这意味着它对修改并不友好，如果要对ziplist做修改类的操作，那就需重新分配新的内存来存储新的ziplist，代价很大

ziplist其实是一个逻辑上的双向链表，可以快速找到头节点和尾编程节点，然后每个节点(entry)中也包含指向前/后节点的"指针"，但作者为了将内存节省到极致，摒弃了传统的链表设计(前后指针需要16字节的空间，而且会导致内存碎片化严重)，设计出了内存非常紧凑的存储格式。

内存是省下来了，但操作复杂性编程客栈也更新的复杂度上来了

字典

底层实现

字典（dict）：其中包含长度为2的哈希表数组dictht，rehashIdx(默认-1)如果为-1说明当前没有扩容，如果不为 -1 则表示正在进行扩容，记录了原hash表需rehash的数组下标

hash表数组中，ht[0] 在第一次往字典中添加键值时分配内存空间，而另一个 ht[1] 将会在hash表中数组扩容/缩容才会进行空间分配

redis中hash数据结构及说明

hash表(dictht)：字典dictht数组元素，其中包括了

1 数据 dictEntry 类型的数组，每个数组的 item 可能都指向一个链表

2 数组长度 size

3 sizemask 等于 size - 1

4 当前 dictEntry 数组中包含总共多少节点

redis中hash数据结构及说明

hash表数组中元素(dictEntry)：真正的数据节点，包括 key、value 和 next 节点

redis中hash数据结构及说明

整体结构如下所示：

redis中hash数据结构及说明

扩容

扩容时机：在dict->rehashidx == -1 , 也就是字典没有正在进行扩容/缩容的前提下，以下三种情况下对哈希表进行扩容并标记 dict->rehashidx 字段为0，且扩展的哈希表的数组大小是第一个hash表长度的 2倍

字典已使用节点数和数组大小之间的比率至少为 1：1，并且 dict_can_resize 为true
已使用节点数和字典大小之间的比率超过 dict_force_resize_ratio,该值默认为5
哈希表刚初始化完，是个空表，给哈希数组设置默认大小 DICT_HT_INITIAL_SIZE （4）

扩容方式：为ht[1]分配长度为ht[0]2倍长度，rehashIdx设置为0表示正在进行扩容rehash，采取渐进式rehash

Redis对一个字典的rehash操作，不是一次性把该字典 dict->ht[0] 哈希表上所有哈希数组里的哈希数组元素全部重新哈希到 dict->ht[1]

而是将全部的rehash操作分散到对该字典操作的各个命令上了，每次进行"一步"哈希操作(增加k/v，删除k/v，查找key，随机返回key)

下标从di编程ct->rehashidx开始，在 dict->ht[0].table 数组中找到第一个不为NULL的项
将该项链表上的所有元素全部hash映射到 ditct->ht[1] 上
每重新映射一个元素， dict->ht[0].used --, dict->ht[1].used ++
该项链表处理完后，将 dict->rehashidx ++

如果 dict->ht[0].used == 0，说明 dict->ht[0]中的元素已全部rehash到dict->ht[1],释放dict->ht[0].table 数组，设置 diLSzOOpcBct->ht[0] = dict->ht[1]，重置 dict->ht[1]的字段，设置 dict->rehashidx = -1，rehash操作结束

缩容

字典有扩容也有缩容，从字典中删除key后，若字典中的元素个数与字典数组大小满足一定关系，会触发缩容操作，缩绒条件是：

哈希数组长度大于默认值DICT_HT_INITIAL_SIZE (4)，且节点数量与字典哈希表数字大小的比例小于10%

缩容后新数组长度为hash表中元素个数

总结

以上为个人经验，希望能给大家一个参考，也希望大家多多支持我们。

继续阅读：hash数据结构 redis hash数据结构

redis中hash数据结构及说明

目录

hash的数据结构

ziplist底层实现

字典

底层实现

扩容

缩容

总结

更多精彩内容

精彩评论

最新数据库

SQL中的CASE WHEN用法常用场景分析

MySQL使用navicat premium 15导出数据为批量插入格式实现方式

Linux上MySQL通过图形化界面操作方式

Mysql 索引从入门到精通(从原理到实践)

MySQL互为主从数据同步部署操作方式

数据库排行榜

Hadoop Key Management Server (KMS)配置及测试

spark报错ERROR ObjectStore: Version information found in metastore differs 2.1.0 from expected schema version 1.2.0. Schema verififcation is disabled hive.metastore.schema.verification so setting version.

Navicat连接Oracle数据库的详细步骤与注意事项

解决Navicat远程连接MySQL出现 10060 unknow error的方法

redis-cluster集群调优之cluster-require-full-coverage参数