go語言程序cpu過高問題排查的方法詳解

一、前言

Go程序像C/C++一樣,如果開發編碼考慮不當,會出現cpu負載過高的性能問題。如果程序是線上環境或者特定場景下出現負載過高,問題不好復現,則需要利用當前負載過高的進程進行調用棧分析。

C/C++中一般先通過top -d 1 -p $pid -H 命令查看負載過高的線程號(TID),然後使用gdb attach到該進程,通過thread info獲取線程信息,然後切換到對應負載高的線程,輸入bt查看調用棧。

結合對應代碼中的函數,進一步分析。Go語言中方法也類似,我們將通過dlv來分析負載高的協程調用棧。

二、問題排查過程

2.1 通過top查看高cpu的進程pid

通過top -d 1,可以發現進程cava_smu(pid=11205)的cpu過高。

2.2 通過top查看高cpu的線程tid

通過上一步,我們確定瞭是pid=11205的cava_smu進程cpu過高,那麼可以通過top -d 1 -p 11205 -H 來確認cpu過載的線程tid,如下圖所示:

通過以上操作,可以確認tid=11208,11212,11213三個線程的cpu過高。

2.3 通過dlv附加到進程,分析線程/協程cpu過載的堆棧

首先,如果生產環境沒有dlv,則可以拷貝對應的dlv到/usr/local/bin下。

接著 dlv attach 11205,確認tid=11208的goroutine 序號,如下圖所示:

2.4 在dlv中切換到對應高cpu協程,並查看堆棧

如下圖所示:

通過以上操作,可以確認業務底層的棧幀是第6→5幀,business.go:18行的disPatchTask ->business.go:168 行的dispatchIdleTeu方法相關,查看對應版本代碼如下:

代碼執行到下圖中,dispatchIdleTeu返回瞭錯誤qferror.ErrNoTeu。

代碼執行到下圖中,189行dispatchIdleTeu返回瞭錯誤qferror.ErrNoTeu,所以189 if的執行語句192~212無法進入進行,而外層是一個for死循環,則會造成該協程一直占用cpu,導致cpu過載。

修復方法可以是在for 循環內增加sleep休眠,例如在214行處增加time.Sleep(200 * time.Millisecond),效果請自行驗證。

總結

到此這篇關於go語言程序cpu過高問題排查的文章就介紹到這瞭,更多相關go程序cpu過高排查內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: