MySQL 8.0 redo log的深入解析

前言

最開始瞭解mysql實現的時候,總聽到redo log, WAL(write-ahead logging),undo log這些關鍵詞,瞭解到redo log主要是用於實現事務的持久化的。為瞭進一步瞭解redo log,看瞭下相關代碼(源碼版本: mysql 8.0.12),這裡簡單總結下,主要介紹redo log是如何產生,如何落盤,以及最終通知用戶的。

redo log的產生

讀寫事務在執行的過程中,會不斷的產生redo log。申請數據頁、修改數據頁、記錄undo log等,都會產生redo log。mysql將用戶事務拆分成一個個mtr(mini transaction),redo log最初產生時就是被記錄到mtr中的,並伴隨著mtr的提交而提交,最終落到硬盤上。

redo log 的提交

mtr在提交時,會將mtr中的redo log寫到系統變量log_sys的log buffer中。mysql8.0一個新特性就是redo log提交的無鎖化。在8.0以前,各個用戶線程都是通過互斥量競爭,串行的寫log buffer,因此能保證lsn的順序無間隔增長。8.0時用戶線程可以並發寫log buffer,如果某個用戶線程寫log buffer成功後,就將自己寫的lsn以前的log buffer刷盤,則有可能導致其他用戶線程寫log buffer還沒完成就被刷盤。

為瞭解決這個問題,mysql 8.0引入瞭Link_buf這個數據結構來避免log buffer的空洞。Link_buf實際是一個定長數組,像滑動窗口一樣跟蹤log buffer一段區間的寫入情況,隨著log buffer中寫入連續redo log不斷向前推進。

Link_buf的數據結構如圖:

當用戶在log buffer的start_lsn-end_lsn間寫下redo log時,會標記Link_buf相應的位置,即將m_link[start_lsn%m_capacity]賦值為為end_lsn-start_lsn。

redo log記錄到log buffer的過程如下:

1.首先,各用戶線程寫redo log時,先根據redo log長度,向系統全局原子變量log_sys.sn獲取本次redo log日志的start_lsn, end_lsn。原子變量sn能保證各線程獲得的start_lsn-end_lsn區間連續無空洞;

2.用戶線程申請到start_lsn-end_lsn區間後,需要先等待到Link_buf推進到自己可以使用的位置。

如圖所示,start_lsn0-end_lsn0,start_lsn2-end_lsn2, start_lsn3-end_lsn3為三個用戶線程新申請的lsn區間;start_lsn1-end_lsn1對應的區間已經標記到link_buf上;start_lsn3-end_lsn3距離tail太遠,需要等待link_buf推進才能使用;

3.寫入log buffer後,再將start_lsn->end_lsn的范圍標記到link_buf(註意:因為隻在start_lsn%capacity的位置標記link_buf,所以即使end_lsn超過(m_tail, m_tail+m_capacity)也不影響);

4.用戶線程提交事務時設置事件log_sys.writer_event,觸發log_writer線程將日志從redo log buffer寫到系統緩存(log_writer線程自己也會輪詢link_buf判斷是否寫入瞭新的日志);

5.log_writer線程推進m_tail,並將m_tail前的log buffer落盤。

redo log 的落盤及通知

前面簡述瞭redo log是如何提交的,在redo log提交以及落盤時,涉及多個線程,他們的關系如下:

用戶線程在讀寫事務提交時,會產生一些redo log,並隨著mtr提交而記錄到redo log buffer中,隨後用戶線程嘗試設置writer_event觸發log_writer線程寫日志,並監聽屬於自己的flush_events[i]事件;

log_writer線程推進Link_buf.m_tail,將最大連續lsn前的redo log寫入系統緩存,並設置flusher_event觸發log_flusher線程;

log_flusher線程將已寫入系統緩存的日志刷盤,並設置flush_notifier_event觸發log_flush_notifier線程通知用戶;

log_flush_notifier根據已刷盤的lsn換算出需要觸發的事件,通知用戶線程。

具體實現時,通過log_sys中的幾個成員變量,跟進redo log的寫入情況。其中log_sys.recent_writtern.m_tail表示log buffer最大連續范圍;log_sys.write_lsn表示寫入到系統緩存的位置;log_sys.flushed_to_disk_lsn表示已落盤的位置。各標記的推進過程如下:

通知用戶線程

用戶提交事務時,會根據innodb_flush_log_at_trx_commit參數,調用log_wait_for_write或log_wait_for_flush,來等待redo log寫入到系統緩存或刷到硬盤。用戶線程的通知是通過log_sys.flush_events事件數組來實現的,為瞭避免一次通知的flush_events過多,flush_events會像桶一樣劃分給不同的用戶線程:redo log是以一個個log block劃分的,假設log_sys.flush_events數組長度為m,則第n個log block的刷盤,由flush_events[n%m]事件監聽。當log buffer的第L1個log block到第L2個log block被刷盤時,會設置L1-L2之間的log block所屬的flush_events,從而redo log在L1-L2之間的用戶線程都會收到通知。

總結

mysql8.0通過redo log無鎖化,解決瞭用戶線程寫redo log時競爭鎖帶來的性能影響。同時將redo log寫文件、redo log刷盤從用戶線程中剝離出來,抽成單獨的線程,用戶線程隻負責將redo log寫入到log buffer,不再關心redo log的落盤細節,隻需等待log_writer線程或log_flusher線程的通知。

以上就是MySQL 8.0 redo log的深入解析的詳細內容,更多關於MySQL 8.0 redo log的資料請關註WalkonNet其它相關文章!

推薦閱讀: