go語言程序cpu過高問題排查的方法詳解
一、前言
Go程序像C/C++一樣,如果開發編碼考慮不當,會出現cpu負載過高的性能問題。如果程序是線上環境或者特定場景下出現負載過高,問題不好復現,則需要利用當前負載過高的進程進行調用棧分析。
C/C++中一般先通過top -d 1 -p $pid -H 命令查看負載過高的線程號(TID),然後使用gdb attach到該進程,通過thread info獲取線程信息,然後切換到對應負載高的線程,輸入bt查看調用棧。
結合對應代碼中的函數,進一步分析。Go語言中方法也類似,我們將通過dlv來分析負載高的協程調用棧。
二、問題排查過程
2.1 通過top查看高cpu的進程pid
通過top -d 1,可以發現進程cava_smu(pid=11205)的cpu過高。
2.2 通過top查看高cpu的線程tid
通過上一步,我們確定瞭是pid=11205的cava_smu進程cpu過高,那麼可以通過top -d 1 -p 11205 -H 來確認cpu過載的線程tid,如下圖所示:
通過以上操作,可以確認tid=11208,11212,11213三個線程的cpu過高。
2.3 通過dlv附加到進程,分析線程/協程cpu過載的堆棧
首先,如果生產環境沒有dlv,則可以拷貝對應的dlv到/usr/local/bin下。
接著 dlv attach 11205,確認tid=11208的goroutine 序號,如下圖所示:
2.4 在dlv中切換到對應高cpu協程,並查看堆棧
如下圖所示:
通過以上操作,可以確認業務底層的棧幀是第6→5幀,business.go:18行的disPatchTask ->business.go:168 行的dispatchIdleTeu方法相關,查看對應版本代碼如下:
代碼執行到下圖中,dispatchIdleTeu返回瞭錯誤qferror.ErrNoTeu。
代碼執行到下圖中,189行dispatchIdleTeu返回瞭錯誤qferror.ErrNoTeu,所以189 if的執行語句192~212無法進入進行,而外層是一個for死循環,則會造成該協程一直占用cpu,導致cpu過載。
修復方法可以是在for 循環內增加sleep休眠,例如在214行處增加time.Sleep(200 * time.Millisecond),效果請自行驗證。
總結
到此這篇關於go語言程序cpu過高問題排查的文章就介紹到這瞭,更多相關go程序cpu過高排查內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!
推薦閱讀:
- 一文掌握Go語言並發編程必備的Mutex互斥鎖
- GO語言臨界資源安全問題的深入理解
- 解析golang中的並發安全和鎖問題
- Go並發的方法之goroutine模型與調度策略
- Go語言context上下文管理的使用