Arthas排查Kubernetes中應用頻繁掛掉重啟異常

前言

其實最終定位到的問題還是蠻好解決的,但是因為應用在Kubernetes容器中的特殊性,導致在使用Arthas過程中出現瞭各種問題,所以單獨成文和大傢分享下。照例先講下問題發生的背景,一個很老的web系統部署在tomcat容器裡。近期打成瞭鏡像丟到瞭Kubernetes環境中運行,總是各種掛,在Kubernetes層面定位瞭很久沒找到具體問題,但是初步定位到是因為系統中的報表導出接口導致的問題,最後使用Arthas找到問題並解決。

Kubernetes容器的特殊性

首先說下,我們的Kubernetes容器中運行的應用都是基於自己構建的基礎鏡像打包的,如JDK,和tomcat基礎鏡像,為瞭減小打包後應用的體積,我們對JDK進行瞭大量的刪減,隻保留瞭最小的jre運行時環境。這樣導致的後果是在應用出現問題需要使用jdk工具時,如jinfo、jmap、jstack等都沒瞭,沒瞭這些工具就相當於一個戰士沒瞭武器,束手無策瞭,但是最後忽然想到瞭Arthas,java線上排錯利器。

使用到的工具Arthas

Arthas是阿裡巴巴開源的一款在線診斷java應用程序的工具,是greys工具的升級版本,深受開發者喜愛。當你遇到以下類似問題而束手無策時,Arthas可以幫助你解決:

  • 這個類從哪個 jar 包加載的?為什麼會報各種類相關的 Exception?
  • 我改的代碼為什麼沒有執行到?難道是我沒 commit?分支搞錯瞭?
  • 遇到問題無法在線上 debug,難道隻能通過加日志再重新發佈嗎?
  • 線上遇到某個用戶的數據處理有問題,但線上同樣無法 debug,線下無法重現!
  • 是否有一個全局視角來查看系統的運行狀況?
  • 有什麼辦法可以監控到JVM的實時運行狀態?
  • Arthas采用命令行交互模式,同時提供豐富的 Tab 自動補全功能,進一步方便進行問題的定位和診斷。

項目地址:https://github.com/alibaba/arthas

Arthas的使用

第一步:下載arthas-boot.jar

wget https://alibaba.github.io/arthas/arthas-boot.jar

第二步:運行

java -jar arthas-boot.jar

運行後,並沒有出現熟悉的java進程選擇界面,而是一閃而過,如下:

/opt/kl # java -jar arthas-boot.jar
[INFO] arthas-boot version: 3.1.0
[INFO] Can not find java process. Try to pass <pid> in command line.
Please select an available pid.

按官方的說明文檔描述,假如出現瞭找不到pid的情況,在當前目錄下應該會輸出相關的log,但是我看瞭並沒有日志,那隻能嘗試是否可以手動指定pid來使用Arthas瞭。在官網沒找到類似說明,隻能試試java -jar arthas-boot.jar -help看下,輸出如下

/opt/kl # java -jar arthas-boot.jar -help
[INFO] arthas-boot version: 3.1.0
Usage: arthas-boot [-h] [--target-ip <value>] [--telnet-port <value>]
       [--http-port <value>] [--session-timeout <value>] [--arthas-home <value>]
       [--use-version <value>] [--repo-mirror <value>] [--versions] [--use-http]
       [--attach-only] [-c <value>] [-f <value>] [--height <value>] [--width
       <value>] [-v] [pid]

Bootstrap Arthas

EXAMPLES:
  java -jar arthas-boot.jar <pid>
  java -jar arthas-boot.jar --target-ip 0.0.0.0
  java -jar arthas-boot.jar --telnet-port 9999 --http-port -1
  java -jar arthas-boot.jar -c 'sysprop; thread' <pid>
  java -jar arthas-boot.jar -f batch.as <pid>
  java -jar arthas-boot.jar --use-version 3.0.5
  java -jar arthas-boot.jar --versions
  java -jar arthas-boot.jar --session-timeout 3600
  java -jar arthas-boot.jar --attach-only
  java -jar arthas-boot.jar --repo-mirror aliyun --use-http

EXAMPLES的第一條顯示出來瞭,直接在jar後面加上pid即可,執行後,還是不行,輸出如下:

/opt/kl # java -jar arthas-boot.jar 1
[INFO] arthas-boot version: 3.1.0
[INFO] Start download arthas from remote server: https://maven.aliyun.com/repository/public/com/taobao/arthas/arthas-packaging/3.1.0/arthas-packaging-3.1.0-bin.zip
[INFO] Download arthas success.
[INFO] arthas home: /root/.arthas/lib/3.1.0/arthas
[INFO] Try to attach process 1
Exception in thread "main" java.lang.IllegalArgumentException: Can not find tools.jar under java home: /usr/java/jdk/jre1.8.0_191, please try to start arthas-boot with full path java. Such as /opt/jdk/bin/java -jar arthas-boot.jar
        at com.taobao.arthas.boot.ProcessUtils.findJavaHome(ProcessUtils.java:195)
        at com.taobao.arthas.boot.ProcessUtils.startArthasCore(ProcessUtils.java:206)
        at com.taobao.arthas.boot.Bootstrap.main(Bootstrap.java:441)

異常解析:

根據異常可以明顯看到說找不到tools.jar這個工具包瞭,還是回歸到Kubernetes容器環境中因為精簡瞭jre運行時環境導致jdk很多功能受限瞭。後面我做瞭一個非常規的事情,就是在完整的jdk中找到瞭這個tools.jar,丟到瞭jre裡的lib目錄中,繼續嘗試,但是還有問題,如下:

/opt/kl # java -jar arthas-boot.jar 1
[INFO] arthas-boot version: 3.1.0
[INFO] arthas home: /root/.arthas/lib/3.1.0/arthas
[INFO] Try to attach process 1
[ERROR] Start arthas failed, exception stack trace:
java.lang.UnsatisfiedLinkError: no attach in java.library.path
        at java.lang.ClassLoader.loadLibrary(ClassLoader.java:1867)
        at java.lang.Runtime.loadLibrary0(Runtime.java:870)
        at java.lang.System.loadLibrary(System.java:1122)
        at sun.tools.attach.LinuxVirtualMachine.<clinit>(LinuxVirtualMachine.java:342)
        at sun.tools.attach.LinuxAttachProvider.attachVirtualMachine(LinuxAttachProvider.java:78)
        at com.sun.tools.attach.VirtualMachine.attach(VirtualMachine.java:250)
        at com.taobao.arthas.core.Arthas.attachAgent(Arthas.java:73)
        at com.taobao.arthas.core.Arthas.<init>(Arthas.java:26)
        at com.taobao.arthas.core.Arthas.main(Arthas.java:100)
[ERROR] attach fail, targetPid: 1

異常解析:

可以看到在補全瞭tools.jar之後,出現瞭新的異常信息java.lang.UnsatisfiedLinkError: no attach in java.library.path,表明可能我們缺的東西不是一點半點,我們知道attach功能是Arthas實現原理的兩大原理之一。

attach:jdk1.6新增功能,通過attach機制,可以在jvm運行中,通過pid關聯應用

instrument:jdk1.5新增功能,通過instrument俗稱javaagent技術,可以修改jvm加載的字節碼

然後Arthas和其他診斷工具一樣,都是先通過attach鏈接上目標應用,通過instrument動態修改應用程序的字節碼達到不重啟應用而監控應用的目的

最後的救命稻草

使用完整的JDK中的java命令。

以上方式都試過不行之後,最後我把完整的JDK給下載到本地瞭,然後通過jdk的bin目錄下的java命令啟動arthas-boot.jar終於ok瞭,出現瞭熟悉的java進程選擇界面:

/opt/kl/jdk1.8.0_191/bin # ./java -jar arthas-boot.jar
[INFO] arthas-boot version: 3.1.0
[INFO] Found existing java process, please choose one and hit RETURN.
* [1]: 1 org.apache.catalina.startup.Bootstrap

最後定位到的問題其實很簡單,我記錄瞭Arthas大盤中關於內存部分的圖,如下:

上圖從標題欄開始往下,分別是heap(堆內存)、eden_space(伊甸園區內存),survivor_space(幸存者區內存)、tenured_gen(老年代內存)。這張圖是觸發導出操作後的內存分佈,堆內存從一開始的200M左右占用、到400M、到600M、一瞬間就飚升到900多兆瞭。最後從堆內存指標我們看到,總共989M,使用的內存已經飚升到988M瞭,這個時候其實應用已經掛瞭,Kubernetes容器已經在重啟這個實例瞭。到這裡基本已經到位到應用在容器中頻繁掛掉重啟問題的本質瞭。

但是為什麼堆內存會這麼小呢?

最終查明,有方面的原因:

1、因為我們這邊都是spring boot應用,隻有一個遺留的tomcat部署的應用,所以在鏡像優化方面更偏向jdk基礎基礎鏡像,而tomcat鏡像沒怎麼關註,一開始對堆內存這塊並沒調優設置。

2、後面出現問題後,也確實想到過因為是導出報表導致應用掛掉,很可能是內存問題,設置過tomcat鏡像內的堆內存大小,但是因為我們重新打包的鏡像沒有使用新的版本號,而是直接覆蓋之前的版本,又使用Jenkins構建的,Jenkins所在主機拉過之前的鏡像,導致鏡像更新後,Jenkins打包時並沒有去拉最新的調優過基礎鏡像。

解決問題

1、調優過的鏡像加上新的版本號,讓應用基於新的版本號構建鏡像。或者清理下Jenkins所在主機的鏡像,這個會導致第一次構建時速度變慢

2、優化導出報表的實現,我給的方案是,在導出大數據報表時,可以通過id分區,分別作業寫入同一個服務器本地的文件中,然後讓web容器映射下這個文件所在的目錄,等所有分區的任務都結束後,直接組裝一個文件下載鏈接返回給前端,讓前端觸發一次讀文件操作即可。

最後嘗試下jmap

除瞭使用Arthas外,最後還嘗試瞭使用jmap工具,但是因為重新下載的JDK版本和主機jre版本不兼容,所有沒用上。最後通過JDK發行的歸檔頁面找到瞭對應的版本,還是成功的使用jmap -heap pid看到瞭內存情況,。內存分佈也蠻清晰的,如:

/opt/kl/jdk1.8.0_191/bin # ./jmap -heap 1
Attaching to process ID 1, please wait...
Debugger attached successfully.
Server compiler detected.
JVM version is 25.191-b12
using thread-local object allocation.
Mark Sweep Compact GC
Heap Configuration:
   MinHeapFreeRatio         = 40
   MaxHeapFreeRatio         = 70
   MaxHeapSize              = 3221225472 (3072.0MB)
   NewSize                  = 1073741824 (1024.0MB)
   MaxNewSize               = 1073741824 (1024.0MB)
   OldSize                  = 2147483648 (2048.0MB)
   NewRatio                 = 2
   SurvivorRatio            = 8
   MetaspaceSize            = 21807104 (20.796875MB)
   CompressedClassSpaceSize = 1073741824 (1024.0MB)
   MaxMetaspaceSize         = 17592186044415 MB
   G1HeapRegionSize         = 0 (0.0MB)
Heap Usage:
New Generation (Eden + 1 Survivor Space):
   capacity = 966393856 (921.625MB)
   used     = 856023096 (816.3672409057617MB)
   free     = 110370760 (105.25775909423828MB)
   88.57911199302988% used
Eden Space:
   capacity = 859045888 (819.25MB)
   used     = 787314712 (750.8418197631836MB)
   free     = 71731176 (68.4081802368164MB)
   91.6499017104893% used
From Space:
   capacity = 107347968 (102.375MB)
   used     = 68708384 (65.52542114257812MB)
   free     = 38639584 (36.849578857421875MB)
   64.00529537736568% used
To Space:
   capacity = 107347968 (102.375MB)
   used     = 0 (0.0MB)
   free     = 107347968 (102.375MB)
   0.0% used
tenured generation:
   capacity = 2147483648 (2048.0MB)
   used     = 1521987528 (1451.4804153442383MB)
   free     = 625496120 (596.5195846557617MB)
   70.87306715548038% used

jdk歸檔下載頁:https://www.oracle.com/technetwork/java/javase/downloads

結語

Arthas是一個非常不錯的工具,我們線上多次使用Arthas定位過問題。不過像今天的這種Kubernetes容器環境的話,因為本身運行時環境的缺失,可能使用的時候會存在各種問題,這裡主要還是分享個思路。希望能給類似場景的同學提供一個有用的參考。

以上就是Arthas排查Kubernetes中應用頻繁掛掉重啟異常的詳細內容,更多關於Arthas異常排查Kubernetes頻繁重啟的資料請關註WalkonNet其它相關文章!

推薦閱讀: