深入解析MySQL索引數據結構

Posted on 2021-10-13 by WalkonNet

概述

索引是對數據庫表中一列或多列的值進行排序的一種結構，使用索引可快速訪問數據庫表中的特定信息。

索引數據結構

二叉樹

二叉樹（binary tree）是指樹中節點的度不大於 2 的有序樹，它是一種最簡單且最重要的樹。二叉樹的遞歸定義為：二叉樹是一棵空樹，或者是一棵由一個根節點和兩棵互不相交的，分別稱作根的左子樹和右子樹組成的非空樹；左子樹和右子樹又同樣都是二叉樹

對於數組 {1,2,3,4,5} 數據結構將成為瞭鏈表

特點：

父節點下面有兩個子節點。
右邊節點的數據大於左邊節點的數據。

二叉樹.png

紅黑樹

紅黑樹是一種特定類型的二叉樹，它是在計算機科學中用來組織數據比如數字的塊的一種結構。若一棵二叉查找樹是紅黑樹，則它的任一子樹必為紅黑樹。

紅黑樹是一種平衡二叉查找樹的變體，它的左右子樹高差有可能大於 1，所以紅黑樹不是嚴格意義上的平衡二叉樹（AVL），但對之進行平衡的代價較低，其平均統計性能要強於 AVL 。

由於每一棵紅黑樹都是一棵二叉排序樹，因此，在對紅黑樹進行查找時，可以采用運用於普通二叉排序樹上的查找算法，在查找過程中不需要顏色信息。

紅黑樹數據結構如下圖：

紅黑樹數據結構.png

特點：

紅黑樹是每個結點都帶有顏色屬性的二叉查找樹，顏色或紅色或黑色。
結點是紅色或黑色。
根結點是黑色。
所有葉子都是黑色。（葉子是NIL結點）
每個紅色結點的兩個子結點都是黑色。（從每個葉子到根的所有路徑上不能有兩個連續的紅色結點）
從任一節結點其每個葉子的所有路徑都包含相同數目的黑色結點。
這些約束強制瞭紅黑樹的關鍵性質: 從根到葉子的最長的可能路徑不多於最短的可能路徑的兩倍長。結果是這個樹大致上是平衡的。因為操作比如插入、刪除和查找某個值的最壞情況時間都要求與樹的高度成比例，這個在高度上的理論上限允許紅黑樹在最壞情況下都是高效的，而不同於普通的二叉查找樹。
是性質4導致路徑上不能有兩個連續的紅色結點確保瞭這個結果。最短的可能路徑都是黑色結點，最長的可能路徑有交替的紅色和黑色結點。因為根據性質5所有最長的路徑都有相同數目的黑色結點，這就表明瞭沒有路徑能多於任何其他路徑的兩倍長。
因為紅黑樹是一種特化的二叉查找樹，所以紅黑樹上的隻讀操作與普通二叉查找樹相同。

B-Tree

葉子結點具有相同的深度，葉節點的指針為空
所有元素不重復
節點中的數據索引從左到右邊遞增排列

B樹數據結構.png

B+Tree

非葉子結點不存儲數據，隻存儲索引（冗餘），可以存放更多的索引
葉子結點包含所有索引字段
葉子結點用指針鏈接，提高區間訪問的性能（可以提升范圍查找的效率）

B+樹數據結構.png

特點關鍵字：節點內有序，葉子結點指針鏈接，非葉子結點存儲索引（冗餘）

查詢mysql 索引的數據頁的大小：

mysql> show global status like 'Innodb_page_size';
+------------------+-------+
| Variable_name    | Value |
+------------------+-------+
| Innodb_page_size | 16384 |
+------------------+-------+

為什麼設置 16kb 呢？

Hash

對索引的 key 進行一次 hash 計算就可以定位出數據存儲的位置
很多的時候 hash 索引要比 B+ 樹索引更高效
僅能滿足 “=” ， “in” 不支持范圍查詢
存在 hash 沖突問題

Hash 數據結構.png

索引

InnoDB 索引實現（聚集）

表數據文件本身就是按 B+Tree 組織的一個索引結構文件

聚集索引-葉子節點包含瞭完整的數據記錄

為什麼 InnoDb 表必須有主鍵，並且推薦使用整型的自增主鍵？

如果沒有設置索引的話，MySQL 會選擇一個數據唯一的列作為主鍵索引，如果找不這樣的列。會去做創建一個隱藏列類似 rowid。
表數據文件按照 B+Tree 的數據結構維護，在葉子節點維護的是該行的數據。所以必須有主鍵。
整型更方便 B+Tree 排序，自增的話，對於數據結構的存放更快, 順序存放，不需要進行大量樹的平衡操作。

為什麼非主鍵索引結構葉子節點的存儲的是主鍵值？

一致性，讓主鍵索引先成功，然後再去更新非主鍵索引關系
節省存儲空間。

主鍵索引示意圖：

InnoDB 索引實現.png

非主鍵索引示意圖圖片

如果查詢的是通過 name = Alice 去查詢的時候：

走非主鍵索引去查詢，查詢完後拿到信息（Alice, 18）。其實這裡也是一個非聚簇索引
然後進行回表查詢，再次通過主鍵去查詢做回表查詢。

兩個數據文件：

.frm 主要是存儲表結構信息

.ibd 主要是存儲索引和數據

MyISAM 索引文件（非聚集）

索引文件和數據文件是分離的（非聚集）

MyISAM 存儲引擎索引.png

三個數據文件：

.frm 數據結構文件

.myd 文件主要是存儲數據

.myi 文件主要是存儲索引信息

聚集索引和非聚集索引

特征：

聚集/非聚集主要是索引文件是否和數據文件在一起。

查詢效率上來說聚集索引不會跨文件查詢效率會更加快。

聯合/復合索引

多個字段組織成一個共同的索引

組合索引.png

最左前綴原理為什麼這樣來使用？

索引的數據是被排序的，如果跳過字段的話是無法被使用的。

示例：

where name = 'Jeff' and age = 22              -- 命中索引

where age = 30  and postatin='manager'  -- 不命中索引

where postation = 'dev'                            -- 不命中索引

參考資料

百度百科

總結

到此這篇關於MySQL索引數據結構的文章就介紹到這瞭,更多相關MySQL索引數據結構內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet！

深入解析MySQL索引數據結構

目錄

概述

索引數據結構

二叉樹