MySQL COUNT(*)性能原理詳解
前言
在實際開發過程中,統計一個表的數據量是經常遇到的需求,用來統計數據庫表的行數都會使用COUNT(*)
,COUNT(1)
或者COUNT(字段)
,但是表中的記錄越來越多,使用COUNT(*)
也會變得越來越慢,今天我們就來分析一下COUNT(*)
的性能到底如何。
1.COUNT(1)、COUNT(*)與COUNT(字段)哪個更快?
執行效果:
COUNT(*)
MySQL 對count(*)
進行瞭優化,count(*)
直接掃描主鍵索引記錄,並不會把全部字段取出來,直接按行累加。COUNT(1)
InnoDB引擎遍歷整張表,但不取值,server 層對於返回的每一行,放一個數字“1”進去,按行累加。COUNT(字段)
如果這個“字段”是定義為NOT NULL,那麼InnoDB 引擎會一行行地從記錄裡面讀出這個字段,server 層判斷不能為NULL,按行累加;如果這個“字段”定義允許為NULL,那麼InnoDB 引擎會一行行地從記錄裡面讀出這個字段,然後把值取出來再判斷一下,不是 NULL才累加。
實驗分析
本文測試使用的環境:
[root@zhyno1 ~]# cat /etc/system-release CentOS Linux release 7.9.2009 (Core) [root@zhyno1 ~]# uname -a Linux zhyno1 3.10.0-1160.62.1.el7.x86_64 #1 SMP Tue Apr 5 16:57:59 UTC 2022 x86_64 x86_64 x86_64 GNU/Linux
測試數據庫采用的是(存儲引擎采用InnoDB,其它參數默認):
(Mon Jul 25 09:41:39 2022)[root@GreatSQL][(none)]>select version(); +-----------+ | version() | +-----------+ | 8.0.25-16 | +-----------+ 1 row in set (0.00 sec)
實驗開始:
#首先我們創建一個實驗表 CREATE TABLE test_count ( `id` int(10) NOT NULL AUTO_INCREMENT PRIMARY KEY, `name` varchar(20) NOT NULL, `salary` int(1) NOT NULL, KEY `idx_salary` (`salary`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8; #插入1000W條數據 DELIMITER // CREATE PROCEDURE insert_1000w() BEGIN DECLARE i INT; SET i=1; WHILE i<=10000000 DO INSERT INTO test_count(name,salary) VALUES('KAiTO',1); SET i=i+1; END WHILE; END// DELIMITER ; #執行存儲過程 call insert_1000w();
接下來我們分別來實驗一下:
COUNT(1)
花費瞭4.19秒
(Sat Jul 23 22:56:04 2022)[root@GreatSQL][test]>select count(1) from test_count; +----------+ | count(1) | +----------+ | 10000000 | +----------+ 1 row in set (4.19 sec)
COUNT(*)
花費瞭4.16秒
(Sat Jul 23 22:57:41 2022)[root@GreatSQL][test]>select count(*) from test_count; +----------+ | count(*) | +----------+ | 10000000 | +----------+ 1 row in set (4.16 sec)
COUNT(字段)
花費瞭4.23秒
(Sat Jul 23 22:58:56 2022)[root@GreatSQL][test]>select count(id) from test_count; +-----------+ | count(id) | +-----------+ | 10000000 | +-----------+ 1 row in set (4.23 sec)
我們可以再來測試一下執行計劃
COUNT(*)
(Sat Jul 23 22:59:16 2022)[root@GreatSQL][test]>explain select count(*) from test_count; +----+-------------+------------+------------+-------+---------------+------------+---------+------+---------+----------+-------------+ | id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra | +----+-------------+------------+------------+-------+---------------+------------+---------+------+---------+----------+-------------+ | 1 | SIMPLE | test_count | NULL | index | NULL | idx_salary | 4 | NULL | 9980612 | 100.00 | Using index | +----+-------------+------------+------------+-------+---------------+------------+---------+------+---------+----------+-------------+ 1 row in set, 1 warning (0.01 sec) (Sat Jul 23 22:59:48 2022)[root@GreatSQL][test]>show warnings; +-------+------+-----------------------------------------------------------------------+ | Level | Code | Message | +-------+------+-----------------------------------------------------------------------+ | Note | 1003 | /* select#1 */ select count(0) AS `count(*)` from `test`.`test_count` | +-------+------+-----------------------------------------------------------------------+ 1 row in set (0.00 sec)
COUNT(1)
(Sat Jul 23 23:12:45 2022)[root@GreatSQL][test]>explain select count(1) from test_count; +----+-------------+------------+------------+-------+---------------+------------+---------+------+---------+----------+-------------+ | id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra | +----+-------------+------------+------------+-------+---------------+------------+---------+------+---------+----------+-------------+ | 1 | SIMPLE | test_count | NULL | index | NULL | idx_salary | 4 | NULL | 9980612 | 100.00 | Using index | +----+-------------+------------+------------+-------+---------------+------------+---------+------+---------+----------+-------------+ 1 row in set, 1 warning (0.00 sec) (Sat Jul 23 23:13:02 2022)[root@GreatSQL][test]>show warnings; +-------+------+-----------------------------------------------------------------------+ | Level | Code | Message | +-------+------+-----------------------------------------------------------------------+ | Note | 1003 | /* select#1 */ select count(1) AS `count(1)` from `test`.`test_count` | +-------+------+-----------------------------------------------------------------------+ 1 row in set (0.00 sec)
COUNT(字段)
(Sat Jul 23 23:13:14 2022)[root@GreatSQL][test]>explain select count(id) from test_count; +----+-------------+------------+------------+-------+---------------+------------+---------+------+---------+----------+-------------+ | id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra | +----+-------------+------------+------------+-------+---------------+------------+---------+------+---------+----------+-------------+ | 1 | SIMPLE | test_count | NULL | index | NULL | idx_salary | 4 | NULL | 9980612 | 100.00 | Using index | +----+-------------+------------+------------+-------+---------------+------------+---------+------+---------+----------+-------------+ 1 row in set, 1 warning (0.00 sec) (Sat Jul 23 23:13:29 2022)[root@GreatSQL][test]>show warnings; +-------+------+-----------------------------------------------------------------------------------------------+ | Level | Code | Message | +-------+------+-----------------------------------------------------------------------------------------------+ | Note | 1003 | /* select#1 */ select count(`test`.`test_count`.`id`) AS `count(id)` from `test`.`test_count` | +-------+------+-----------------------------------------------------------------------------------------------+ 1 row in set (0.00 sec)
需要註意的是COUNT裡如果是非主鍵字段的話
(Tue Jul 26 14:01:57 2022)[root@GreatSQL][test]>explain select count(name) from test_count where id <100 ; +----+-------------+------------+------------+-------+---------------+---------+---------+------+------+----------+-------------+ | id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra | +----+-------------+------------+------------+-------+---------------+---------+---------+------+------+----------+-------------+ | 1 | SIMPLE | test_count | NULL | range | PRIMARY | PRIMARY | 4 | NULL | 99 | 100.00 | Using where | +----+-------------+------------+------------+-------+---------------+---------+---------+------+------+----------+-------------+ 1 row in set, 1 warning (0.00 sec)
實驗結果
- 1.從上面的實驗我們可以得出,
COUNT(*)
和COUNT(1)
是最快的,其次是COUNT(id)
。 - 2.
count(*)
被MySQL查詢優化器改寫成瞭count(0)
,並選擇瞭idx_salary索引。 - 3.
count(1)
和count(id)
都選擇瞭idx_salary索引。
實驗結論
總結:COUNT(*)=COUNT(1)>COUNT(id)
MySQL的官方文檔也有說過:
InnoDB handles SELECT COUNT(*) and SELECT COUNT(1) operations in the same way. There is no performance difference
翻譯: InnoDB以相同的方式處理SELECT COUNT(*)和SELECT COUNT(1)操作。沒有性能差異
所以說明瞭對於COUNT(1)
或者是COUNT(*)
,MySQL的優化其實是完全一樣的,沒有存在沒有性能的差異。
但是建議使用COUNT(*)
,因為這是MySQL92定義的標準統計行數的語法。
2.COUNT(*)與TABLES_ROWS
在InnoDB中,MySQL數據庫每個表占用的空間、表記錄的行數可以打開MySQL的information_schema
數據庫。在該庫中有一個TABLES
表,這個表主要字段分別是:
- TABLE_SCHEMA : 數據庫名
- TABLE_NAME:表名
- ENGINE:所使用的存儲引擎
- TABLES_ROWS:記錄數
- DATA_LENGTH:數據大小
- INDEX_LENGTH:索引大小
TABLE_ROWS用於顯示這個表當前有多少行,這個命令執行挺快的,那這個TABLE_ROWS能代替count(*)
嗎?
我們用TABLES_ROWS查詢一下表記錄條數:
(Sat Jul 23 23:15:14 2022)[root@GreatSQL][test]>SELECT TABLE_ROWS -> FROM INFORMATION_SCHEMA.TABLES -> WHERE TABLE_NAME = 'test_count'; +------------+ | TABLE_ROWS | +------------+ | 9980612 | +------------+ 1 row in set (0.03 sec)
可以看到,記錄的條數並不準確,因為InnoDB引擎下TABLES_ROWS行計數僅是大概估計值。
3.COUNT(*)是怎麼樣執行的?
首先要明確的是,MySQL有多種不同引擎,在不同的引擎中,count(*)
有不同的實現方式,本文主要介紹的是在InnoDB引擎上的執行流程
在InnoDB存儲引擎中,count(*)
函數是先從內存中讀取表中的數據到內存緩沖區,然後掃描全表獲得行記錄數的。簡單來說就是全表掃描,一個循環解決問題,循環內: 先讀取一行,再決定該行是否計入count
循環內是一行一行進行計數處理的。
在MyISAM引擎中是把一個表的總行數存在瞭磁盤上,因此執行count(*)
的時候會直接返回這個數,效率很高。
之所以InnoDB 不跟 MyISAM一樣把數字存起來,是因為即使是在同一個時刻的多個查詢,由於多版本並發控制(MVCC)的原因,InnoDB表應該返回多少行也是不確定的。而且不論是在事務支持、並發能力還是在數據安全方面,InnoDB都優於MyISAM。
雖然如此,InnoDB對於count(*)
操作還是做瞭優化的。InnoDB是索引組織表,主鍵索引樹的葉子節點是數據,而普通索引樹的葉子節點是主鍵值。所以,普通索引樹比主鍵索引樹小很多。對於count(*)
這樣的操作,遍歷哪個索引樹得到的結果邏輯上都是一樣的。因此,MySQL 優化器會找到最小的那棵樹來遍歷。
需要註意的是我們在這篇文章裡討論的是沒有過濾條件的count(*)
,如果加瞭WHERE條件的話,MyISAM引擎的表也是不能返回得這麼快的。
4.總結
- 1.
COUNT(*)=COUNT(1)>COUNT(id)
- 2.COUNT函數的用法,主要用於統計表行數。主要用法有
COUNT(*)、COUNT(字段)和COUNT(1)
- 3.因為
COUNT(*)
是SQL92定義的標準統計行數的語法,所以MySQL對他進行瞭很多優化,MyISAM中會直接把表的總行數單獨記錄下來供COUNT(*)
查詢,而InnoDB則會在掃表的時候選擇最小的索引來降低成本。這些優化的前提是沒有進行WHERE和GROUP的條件查詢。 - 4.在InnoDB中
COUNT(*)
和COUNT(1)
實現上沒有區別,而且效率一樣,但是COUNT(字段)
需要進行字段的非NULL判斷,所以效率會低一些。 - 5.因為
COUNT(*)
是SQL92定義的標準統計行數的語法,並且效率高,所以還是建議使用COUNT(*)
查詢表的行數。 - 6.正如前面
COUNT(name)
的用例那樣,在建表過程中需要根據業務需求建立性能較高的索引,同時也要註意避免建立不必要的索引。
到此這篇關於MySQL COUNT(*)性能原理詳解的文章就介紹到這瞭,更多相關MySQL COUNT 內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!
推薦閱讀:
- MySQL中limit對查詢語句性能的影響
- 一次SQL查詢優化原理分析(900W+數據從17s到300ms)
- MySQL 用 limit 為什麼會影響性能
- 一文搞清楚MySQL count(*)、count(1)、count(col)區別
- Mysql中count(*)、count(1)、count(主鍵id)與count(字段)的區別