深入理解Mysql底层数据结构和算法

什么是索引

索引是帮助MySQL高效获取数据的排好序的数据结构

数据结构有哪些

数据结构模拟网站：Data Structure Visualization

二叉树

不适合做自增ID的数据结构。如下示意图，假设采用二叉树作为表自增主键ID的数据存储结果如下：当查询id为5的数据时，其查询次数为5次

红黑树

不适合做mysql的索引，因为当表数据太大时，树的高度也同时增大，导致高度不可控和查询速度同时变慢。

Hash表

对索引的key进行一次hash计算就可以定位出数据存储的位置
很多时候Hash索引要比B+ 树索引更高效
仅能满足 “=”，“IN”，不支持范围查询
hash冲突问题

B-tree

每个节点都会保存data数据。

B+tree

Mysql存储结构和索引结构

1、存储结构

InnoDB存储引擎的逻辑存储结构和 Oracle大致相同，所有数据都被逻辑地存放在一个空间中，我们称之为表空间（ tablespace ）。表空间又由段（ segment ）、区（ extent ）、页 ( page ）组成，InnoDB存储引擎的逻辑存储结构大致如图所示。

段（segment）

段是表空间文件中的主要组织结构，它是一个逻辑概念，用来管理物理文件，是构成索引、表、回滚段的基本元素。上图中显示了表空间是由各个段组成的，常见的段有数据段、索引段、回滚段等。InnoDB存储引擎表是索引组织的（index organized），因此数据即索引，索引即数据。那么数据段即为B+树的叶子节点（上图的leaf node segment），索引段即为B+树的非叶子节点（上图的non-leaf node segment）。

创建一个索引（B+树）时会同时创建两个段，分别是非叶子节点段和叶子节点段.。在索引数据量一直增长的过程中，所有新的存储空间的申请，都是从“段”这个概念中申请的。

区（extents）

innodb里的段（segment）又由多个区组成，在代码中被称为extent，区是由64个连续的页（page）组成的，每个页大小为16KB，即每个区的大小为1MB。一个区是物理上连续分配的一个段空间，每一个段至少会有一个区，在创建一个段时会创建一个默认的区。如果存储数据时，一个区已经不足以放下更多的数据，此时需要从这个段中分配一个新的区来存放新的数据。一个段所管理的空间大小是无限的，可以一直扩展下去，但是扩展的最小单位就是区。

页（page）

InnoDB有页（page）的概念，可以理解为区的细化，页是InnoDB磁盘管理的最小单位。

常见的页类型有：

数据页（B-tree Node）。
Undo页（Undo Log Page）。
系统页（System Page）。
事务数据页（Transaction system Page）。
插入缓冲位图页（Insert Buffer Bitmap）。
插入缓冲空闲列表页（Insert Buffer Free List）。
未压缩的二进制大对象页（Uncompressed BLOB Page）。
压缩的二进制大对象页（Compressed BLOB Page）。

在逻辑上（页面号都是从小到大连续的）及物理上都是连续的。在向表中插入数据时，如果一个页面已经被写完，系统会从当前区中分配一个新的空闲页面处理使用，如果当前区中的64个页都被分配完，系统会从当前页面所在段中分配一个新的区，然后再从这个区中分配一个新的页面来使用；

索引结构B+树

B+Tree是在B-Tree基础上的一种优化，使其更适合实现外存储索引结构。B-Tree结构中每个节点不仅包含数据的key值，还有data值。而每一个页的存储空间是有限的，如果data数据较大时将会导致每个节点（即一个页）能存储的key的数量很小，当存储的数据量很大时同样会导致B-Tree的深度较大，增大查询时的磁盘I/O次数，进而影响查询效率。在B+Tree中，所有数据记录节点都是按照键值大小顺序存放在同一层的叶子节点上，而非叶子节点上只存储key值信息，这样可以大大增加每个节点存储的key值数量，降低B+Tree的高度。

B+Tree相对于B-Tree有几点不同：

（1）非叶子节点只存储关键字信息

（2）所有叶子节点之间都有一个双向链表指针

（3）数据记录都存放在叶子节点中

为什么使用B+Tree?

MySQL是基于磁盘的数据库系统,索引往往以索引文件的形式存储的磁盘上,索引查找过程中就要产生磁盘I/O消耗,相对于内存存取，I/O存取的消耗要高几个数量级（每次存取都是按页来操作的）,所以要尽量减少索引树的高度。

（1）B+树的一个节点刚好也是一页。

（2）B+树索引节点不存储数据，因此一个索引节点可以存储更多的索引节点，每个节点能索引的范围更大更精确，也意味着 B+树单次磁盘IO的信息量大于其它树状结构，I/O效率更高。

（3）B+树的数据全部存储在叶子节点，而叶子节点是双向链表，可以很高效的实现区间查询。

库表文件存储位置

Mysql存储引擎

存储引擎是作用到表上的，不同存储引擎的存储内容不一样，同样的是都采用B+tree的索引结构（Mysql做了优化在叶子节点采用了双链表）。如下图示意中InnoDB与MyISAM存储引擎表对应的存储文件区别。

InnoDB:

•InnoDB索引文件和数据文件是一体的(聚集)

frm：存储表结构信息

ibd：存储索引和数据

主键索引

1、表数据文件本身就是按B+Tree组织的一个索引结构文件
2、聚集索引-叶节点包含了完整的数据记录

为什么建议InnoDB表必须建主键，并且推荐使用整型的自增主键？

建主键的目的是让存储引擎可以采用主键创建索引。如果没指定主键则系统会找表里边数据都不相同的列创建索引，如果表里边没有数据都不相同的列则创建一个隐藏列并维护1个rowid。

建议采用整形作为主键，是因为整形好做比较和排序且占用空间小。有的表可能采用UUID作为主键，UUID 虽然可以用字符的ASCII码进行比较，但是比较耗时间（比如比较两个UUID需要一位一位的比较）且长度比较大。

自增有利于顺畅的插入元素。如果不是自增的，则在插入新元素时可能发生树平衡和重构。

非主键索引

为什么非主键索引结构叶子节点存储的是主键值？

(一致性和节省存储空间)

联合索引

联合索引需要遵循最左匹配原则。如果没有按照最左匹配则会导致查询不走索引。原理就如上图，假如查询条件没有name只有age和position字段查询条件，则会导致无法按照索引的排序去查找数据只能查全表。

从 MySQL 5.1 版本开始，MySQL 就开始支持将 B+ 树索引的所有非叶子节点放在内存中的优化方式，这被称为 InnoDB 的“主内存散列索引”（main memory hash index）或者简称为“散列索引”（hash index）。在这种优化方式下，非叶子节点不再使用 B+ 树结构存储，而是使用更高效的散列结构进行组织。

这种索引优化方式最早是在 InnoDB 存储引擎中引入的，然后逐渐得到了优化和改进。从MySQL 5.5版本开始，InnoDB 引入了更强大的“InnoDB Buffer Pool”（即内存缓冲池），并且支持将索引的数据和非叶子节点全部放入内存中，从而极大地提高了查询性能。

需要注意的是，虽然主内存散列索引可以显著提高查询性能，但它也需要消耗更多的内存资源。因此，在使用这种优化方式时，需要确保服务器具备足够的内存容量以容纳索引数据和非叶子节点。

MyISAM：

•MyISAM索引文件和数据文件是分离的(非聚集)

frm：存储表结构信息

MYD：存储表数据信息

MYI：存储表索引信息

发布时间：2023-12-23 21:59:15
http://www.litoo.cn/news/236.html

Redis高并发分布锁实战

Redis分布式锁自己去实现可能会出现几个问题没有在finally显示释放锁，当客户端挂掉了，锁没有被及时删除，这样会导致死锁问题，它这个是需要我们显示的释放锁假如此时我们设置过期时间，但是我们用的是同一个key，就可能出现下一个线程删除上一个线程的锁，但是上一个线程还没有执行完，它这个需要key是不能重复的假如我们既设置了过期时间也指定了不同的key，此时可能因为网络延迟出现上一个线程删除下一个线程的锁，也就是说业务执行的时间超过了锁过期的时间，它这个需要一个锁续命的功能。

编程日记 2024/02/28 09:11:20

Redis是否为单线程？

在深入讨论Redis是否为单线程之前，我们先来了解一下Redis的基本架构。Redis采用了基于内存的数据存储方式，数据存储在内存中，并通过持久化机制将数据定期写入磁盘。客户端：与Redis进行通信的应用程序。Server：负责处理客户端请求、执行命令和管理数据。数据结构：Redis支持多种数据结构，如字符串、列表、哈希表等。事件处理器：用于处理网络事件和命令请求。

编程日记 2024/02/28 09:10:26

MySQL中的高级查询

通过条件查询可以查询到符合条件的数据，但如同要实现对字段的值进行计算、根据一个或多个字段对查询结果进行分组等操作时，就需要使用更高级的查询，MySQL提供了聚合函数、分组查询、排序查询、限量查询、内置函数以实现更复杂的查询需求。接下来将针对这些高级查询的知识进行讲解。

编程日记 2024/02/24 08:33:50

shell脚本实现Mysql分库分表备份

12张图把分库分表讲的明明白白！阿里面试：我们为什么要分库分表。

编程日记 2024/02/23 08:41:17

ubuntu20.04安装实时内核补丁PREEMPT_RT

下载实时内核补丁，我下载patch-5.15.148-rt74.patch.sign和patch-5.15.148-rt74.patch.xz。通过以下指令看具体报错并输出日志到make.log：make -j1 deb-pkg 2>&1 | tee ~/make.log。比较幸运没遇到问题，重启进入后，启动页面没有变化，还是进入ubuntu，但是查看内核版本已经自动变到5.15.148。我下载linux-5.15.148.tar.xz和linux-5.15.148.tar.sign。

编程日记 2024/02/23 08:40:54

mysql中文首字母排序查询

MySQL中的排序涉及到字符集和排序规则。默认情况下，MySQL按照ASCII码对字符进行排序，数字>字母>中文。但是，特殊字符（非字母、数字、中文）的排序需要一些额外处理。匹配到非字母数字中文的内容，做排序，字母数字中文为null，排序优先级最高，排在上面。为什么用HEX()函数做十六进制编码？因为中文用常规的正则不能匹配到结果。试过SUBSTRING、LEFT等，都不能完美实现多中文的首字母排序。为什么要把字母数字中文放在一起匹配？因为处理复杂度会更高。这样可以处理更复杂的排序需求。

编程日记 2024/02/20 22:31:36

使用redis-insight连接到服务器上的redis数据库

我们现在虽然安装好了redis数据库，但是外界是连接不到的，我们需要打破这个限制！设置完之后，可以按以下图的命令查看，redis的密码是不是起作用了。的更改，并退出编辑器。在网上下载好redis-insight的客户端，打开。默认情况下，它可能被设置为只监听本地连接，如。这允许在没有进行身份验证的情况下接受外部连接。(3)为了增强安全性，强烈建议设置访问密码。三、使用redis-insight连接数据库。1.查找redis的配置文件。指令，并确保将其设置为。替换为你自己的强密码。

编程日记 2024/02/16 20:32:27

linux docker 部署mysql8以上版本时弹出Access denied for user root @ localhost (using password: YES)的解决方案

mysql8登录第一次遇到MYSQL_ROOT_PASSWORD时会自动把该密码尽兴登录，生成一个秘钥放在mysql的数据文件里面，命令里带的MYSQL_ROOT_PASSWORD密码是个参数，除了第一次运行mysql带上会设置密码生成秘钥，其他次启动而不是设置mysql的密码，而是作为参数去验证这个最初的秘钥是否核对正确，于是我进入挂载的data目录，发现我的猜想是对的。通过docker将服务部署完后，navicat连接报错，密码错误，于是我尝试进入mysql容器登录发现也报错。

编程日记 2024/02/08 18:08:55

mysql清空表数据后如何让自增ID仍从1开始

2）、可以对自增ID进行重排，使自增ID仍从1开始计算。

编程日记 2024/02/07 09:09:56

数据湖Paimon入门指南

如果用户建表时指定'merge-engine' = 'partial-update'，那么就会使用部分更新表引擎，可以做到多个 Flink 流任务去更新同一张表，每条流任务只更新一张表的部分列，最终实现一行完整的数据的更新，对于需要拉宽表的业务场景，partial-update 非常适合此场景，而且构建宽表的操作也相对简单。这种方式的成本相对较高，同时官方不建议这样使用，因为下游任务在 State 中存储一份全量的数据，即每条数据以及其变更记录都需要保存在状态中。流式查询将不断产生最新的更改。

编程日记 2024/02/05 08:46:01

虚拟机Windows Server 2016 安装 MySQL8

在虚拟机Windows Server 2016 中安装MySQL8.0 并通过本机Navicat远程连接

编程日记 2024/02/04 09:56:57

基于SQL数据库的大模型RAG实现

检索增强生成 (RAG) 涉及从外部数据库获取当前或上下文相关信息，并在请求大型语言模型 (LLM) 生成响应时将其呈现给大型语言模型 (LLM) 的过程。这种方法有效地解决了生成不正确或误导性信息的问题。你能够存储专有业务数据或全局知识，并使你的应用程序能够在响应生成阶段为 LLM 检索此数据。

编程日记 2024/02/02 15:05:48

MySQL运行在docker容器中会损失多少性能

自从使用docker以来，就经常听说MySQL数据库最好别运行在容器中，性能会损失很多。一些之前没使用过容器的同事，对数据库运行在容器中也是忌讳莫深，甚至只要数据库跑在容器中出现性能问题时，首先就把问题推到容器上。

编程日记 2024/02/02 14:07:43

Mysql大数据量分页优化

之前有看过到mysql大数据量分页情况下性能会很差，但是没有探究过它的原因，今天讲一讲mysql大数据量下偏移量很大，性能很差的问题，并附上解决方式。

编程日记 2024/01/29 17:55:30

docker 安装mongodb 数据库

编程日记 2024/01/26 12:30:29

oracle data block , extent 和segment区别

总结来说，Data block是数据库中最小的逻辑存储单位，用于存储实际的数据记录；Extent是由若干个连续的Data blocks组成的区域，表示一段连续的存储空间；data block是数据库中最小的逻辑存储单元。当数据库的对象需要更多的物理存储空间时，连续的data block就组成了extent . 一个数据库对象拥有的所有extents被称为该对象的segment.Data block、extent和segment是数据库中不同层次的数据存储和管理单位，它们各自具有不同的功能和特点。

编程日记 2024/01/24 10:38:37

MySQL数据库主从复制集群原理概念以及搭建流程

主从复制是指将主数据库的 DDL 和 DML 操作通过二进制日志传到从库服务器中，然后在从库上对这些日志重新执行（也叫重做），从而使得从库和主库的数据保持同步。MySQL支持一台主库同时向多台从库进行复制，从库同时也可以作为其他从服务器的主库，实现链状复制。主库出现问题，可以快速切换到从库提供服务。实现读写分离，降低主库的访问压力。可以在从库中执行备份，以避免备份期间影响主库服务。

编程日记 2024/01/18 16:22:43

【MySQL】MySQL表的约束-空属性/默认值/列属性/zerofill/主键/自增长/唯一键/外键

本文介绍了mysql中表的约束--空属性/默认值/列属性/zerofill/主键/自增长/唯一键/外键

编程日记 2024/01/14 09:29:47

CentOS本地部署SQL Server数据库无公网ip环境实现远程访问

GeoServer是OGC Web服务器规范的J2EE实现，利用GeoServer可以方便地发布地图数据，允许用户对要素数据进行更新、删除、插入操作，通过GeoServer可以比较容易地在用户之间迅速共享空间地理信息。另外，GeoServer是开源软件。下面介绍GeoServer web ui 管理界面结合cpolar 内网穿透工具实现远程访问,

编程日记 2024/01/11 10:40:30

[redis] redis的安装，配置与简单操作

Redis是一个开源、基于内存、使用C语言编写的key-value数据库，并提供了多种语言的API。它的数据结构十分丰富，主要可以用于数据库、缓存、分布式锁、消息队列等...Redis服务器程序是单进程模型，也就是在一台服务器上可以同时启动多个Redis进程，Redis的实际处理速度则是完全依靠于主进程的执行效率。若在服务器上只运行一个Redis进程，当多个客户端同时访问时，服务器的处理能力是会有一定程度的下降；

编程日记 2024/01/08 19:32:16

Redis的IO多路复用原理解析

模拟一个tcp服务器处理30个客户socket，一个监考老师监考多个学生，谁举手就应答谁。假设你是一个监考老师，让30个学生解答一道竞赛考题，然后负责验收学生答卷，你有下面几个选择：第一种选择：按顺序逐个验收，先验收A，然后是B，之后是C、D。。。这中间如果有一个学生卡住，全班都会被耽误,你用循环挨个处理socket，根本不具有并发能力。第二种选择：你创建30个分身线程，每个分身线程检查一个学生的答案是否正确。这种类似于为每一个用户创建一个进程或者线程处理连接。

大数据 2024/01/07 16:00:47

在 Docker 中配置 MySQL 数据库并初始化 Project 项目

这样，您就完成了在 Docker 中配置 MySQL 数据库并初始化 Project 项目的过程。希望这篇博客对您有所帮助！创建目录 /project/mysql 以及 /project/mysql_data。在每个 SQL 文件中，将 AUTO_INCREMENT 修改为 1。将准备好的 SQL 文件复制到 /project/mysql 目录。将 init.sql 放到 /project/mysql 目录。在 SQL 文件中插入管理员相关数据。在 SQL 文件中插入机型相关数据。1.4. 插入管理员。

编程日记 2024/01/05 16:29:56