MySQL Group by的優化詳解

Posted on 2021-03-09 by WalkonNet

一個標準的 Group by 語句包含排序、分組、聚合函數，比如 select a,count(*) from t group by a ; 這個語句默認使用 a 進行排序。如果 a 列沒有索引，那麼就會創建臨時表來統計 a和 count(*)，然後再通過 sort_buffer 按 a 進行排序。

標準的執行流程

結構：

create table t1(id int primary key, a int, b int, index(a));
delimiter ;;
create procedure idata()
begin
 declare i int;

 set i=1;
 while(i<=1000)do
 insert into t1 values(i, i, i);
 set i=i+1;
 end while;
end;;
delimiter ;
call idata();

函數就是向 t1 中插入1000條語句，從(1,1,1) 到(1000,1000,1000)。

執行 select id%10 as m, count(*) as c from t1 group by m;

解析：

Using index，表示這個語句使用瞭覆蓋索引，選擇瞭索引 a，不需要回表；
Using temporary，表示使用瞭臨時表；
Using filesort，表示需要排序。

過程：

1、創建內存臨時表，表裡有兩個字段 m 和 c，主鍵是 m；
2、掃描表 t1 的索引 a，依次取出葉子節點上的 id 值，計算 id%10 的結果，記為 x；
　　1）如果臨時表中沒有主鍵為 x 的行，就插入一個記錄 (x,1);
　　2）如果表中有主鍵為 x 的行，就將 x 這一行的 c 值加 1；

第2 步如果發現內存臨時表存儲的總字段長度到達參數 tmp_table_size 設置的大小，那麼就會將內存臨時表升級為磁盤臨時表，然後重新開始遍歷計算。
3、遍歷完成後，再根據字段 m 做排序，得到結果集返回給客戶端。

最後的排序就是下圖虛線框中的操作，如果 sort_buffer 設置的大小不夠大，那麼就會使用臨時表來輔助排序。

優化

未優化（也就是分組列沒有索引）的 group by 的總過程可以概括為：因為數據是無序的，所以需要創建臨時表，然後一個一個判斷屬於哪個分組，最後再根據分組列進行排序。所以，優化可以有兩個思路：

去掉排序

在明確返回的數據不需要排序的情況下，可以禁止排序，也就是將上面的語句改成 select a,count(*) from t group by a order by null。

順序排列

如果記錄都按照排序字段排序，那麼數據就變成瞭下面的結構：

這樣在實際獲取要返回的字段或計算聚合函數時，隻需要按順序依次訪問，等到列值變成下一個就知道當前組訪問結束，將之前統計的數據直接返回。這樣就避免瞭創建臨時表，同時排序也不需要使用 sort_buffer 進行額外排序。這樣就極大地提高瞭執行的效率。

實現

1、如果分組字段適合創建索引就直接為分組字段創建索引。

MySQL 5.7 版本支持瞭 generated column 機制，用來實現列數據的關聯更新。你可以用下面的方法創建一個列 z，然後在 z 列上創建一個索引（如果是 MySQL 5.6 及之前的版本，你也可以創建普通列和索引，來解決這個問題）

alter table t1 add column z int generated always as(id % 100), add index(z);

然後解析：

這時沒有用到臨時表和額外排序，所以性能提升。

2、如果分組字段不適合（使用率很低），那麼可以使用 SQL_BIG_RESULT 來嘗試優化。

在 group by 語句中加入 SQL_BIG_RESULT 這個提示（hint），就可以告訴優化器：這個語句涉及的數據量很大，請直接用磁盤臨時表。MySQL 的優化器一看，磁盤臨時表是 B+ 樹存儲，存儲效率不如數組來得高。所以，既然使用SQL_BIG_RESULT來說明數據量很大，那從磁盤空間考慮，還是直接用數組來存吧。所以在使用 SQL_BIG_RESULT 後優化器會使用數組結構的磁盤臨時表。

但是如果在未達到磁盤臨時表的使用條件是不會使用磁盤臨時表的，也就是在 sort_buffer 空間能夠存儲要返回和排序的總字段長度時，就使用數組結構的 sort_buffer ，如果總字段超過 sort_buffer 大小，那麼就再加上數組結構的磁盤臨時表來幫助排序。

那麼在 sort_buffer 空間足夠的情況下， sort_buffer 內部就會對數據進行排序，這樣也就起到瞭索引的作用，

還是以上面的例子來看，使用 SQL_BIG_RESULT

alter table t1 add column z int generated always as(id % 100), add index(z);

具體過程如下：

1、初始化 sort_buffer，確定放入一個整型字段，記為 m；
2、掃描表 t1 的索引 a，依次取出裡面的 id 值, 將 id%10 的值存入 sort_buffer 中；
3、掃描完成後，對 sort_buffer 的字段 m 做排序（如果 sort_buffer 內存不夠用，就會利用磁盤臨時文件輔助排序）；
4、排序完成後，就得到瞭一個有序數組。

解析：

可以看到此時就沒有使用臨時表瞭，而是直接使用 sort_buffer 進行排序，這樣就省去瞭使用臨時表帶來的性能消耗。

總結

1、如果對 group by 語句的結果沒有排序要求，要在語句後面加 order by null；那麼一般情況就不需要使用臨時表瞭（上面兩個優化都是在要求排序的前提下提出的優化方式）
2、盡量讓 group by 過程用上表的索引，確認方法是 explain 結果裡沒有 Using temporary 和 Using filesort；
3、如果 group by 需要統計的數據量不大，盡量隻使用內存臨時表；也可以通過適當調大 tmp_table_size 參數，來避免用到磁盤臨時表；
4、如果數據量實在太大，使用 SQL_BIG_RESULT 這個提示，來告訴優化器直接使用排序算法得到 group by 的結果。

以上就是詳解MySQL Group by 優化的詳細內容，更多關於MySQL Group by 優化的資料請關註WalkonNet其它相關文章！

MySQL Group by的優化詳解

標準的執行流程

優化

去掉排序

順序排列

實現

總結

推薦閱讀：

發佈留言取消回覆

近期文章

標準的執行流程

優化

去掉排序

順序排列

實現

總結

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆