超詳細的Java 問題排查工具單

Posted on 2021-01-06 by WalkonNet

前言

平時的工作中經常碰到很多疑難問題的處理，在解決問題的同時，有一些工具起到瞭相當大的作用，在此書寫下來，一是作為筆記，可以讓自己後續忘記瞭可快速翻閱，二是分享，希望看到此文的同學們可以拿出自己日常覺得幫助很大的工具，大傢一起進步。

閑話不多說，開搞。

Linux命令類

tail

最常用的tail -f

tail -300f shopbase.log #倒數300行並進入實時監聽文件寫入模式

grep

grep forest f.txt #文件查找
grep forest f.txt cpf.txt #多文件查找
grep 'log' /home/admin -r -n #目錄下查找所有符合關鍵字的文件
cat f.txt | grep -i shopbase
grep 'shopbase' /home/admin -r -n --include *.{vm,java} #指定文件後綴
grep 'shopbase' /home/admin -r -n --exclude *.{vm,java} #反匹配
seq 10 | grep 5 -A 3 #上匹配
seq 10 | grep 5 -B 3 #下匹配
seq 10 | grep 5 -C 3 #上下匹配，平時用這個就妥瞭
cat f.txt | grep -c 'SHOPBASE'

awk

1 、基礎命令

awk '{print $4,$6}' f.txt
awk '{print NR,$0}' f.txt cpf.txt
awk '{print FNR,$0}' f.txt cpf.txt
awk '{print FNR,FILENAME,$0}' f.txt cpf.txt
awk '{print FILENAME,"NR="NR,"FNR="FNR,"$"NF"="$NF}' f.txt cpf.txt
echo 1:2:3:4 | awk -F: '{print $1,$2,$3,$4}'

2 、匹配

awk '/ldb/ {print}' f.txt #匹配ldb
awk '!/ldb/ {print}' f.txt #不匹配ldb
awk '/ldb/ && /LISTEN/ {print}' f.txt #匹配ldb和LISTEN
awk '$5 ~ /ldb/ {print}' f.txt #第五列匹配ldb

3 、內建變量

NR:NR表示從awk開始執行後，按照記錄分隔符讀取的數據次數，默認的記錄分隔符為換行符，因此默認的就是讀取的數據行數，NR可以理解為Number of Record的縮寫。

FNR:在awk處理多個輸入文件的時候，在處理完第一個文件後，NR並不會從1開始，而是繼續累加，因此就出現瞭FNR，每當處理一個新文件的時候，FNR就從1開始計數，FNR可以理解為File Number of Record。

NF: NF表示目前的記錄被分割的字段的數目，NF可以理解為Number of Field。

find

sudo -u admin find /home/admin /tmp /usr -name \*.log(多個目錄去找)
find . -iname \*.txt(大小寫都匹配)
find . -type d(當前目錄下的所有子目錄)
find /usr -type l(當前目錄下所有的符號鏈接)
find /usr -type l -name "z*" -ls(符號鏈接的詳細信息 eg:inode,目錄)
find /home/admin -size +250000k(超過250000k的文件，當然+改成-就是小於瞭)
find /home/admin f -perm 777 -exec ls -l {} \; (按照權限查詢文件)
find /home/admin -atime -1 1天內訪問過的文件
find /home/admin -ctime -1 1天內狀態改變過的文件
find /home/admin -mtime -1 1天內修改過的文件
find /home/admin -amin -1 1分鐘內訪問過的文件
find /home/admin -cmin -1 1分鐘內狀態改變過的文件
find /home/admin -mmin -1 1分鐘內修改過的文件

pgm

批量查詢vm-shopbase滿足條件的日志

pgm -A -f vm-shopbase 'cat /home/admin/shopbase/logs/shopbase.log.2017-01-17|grep 2069861630'

tsar

tsar是咱公司自己的采集工具。很好用, 將歷史收集到的數據持久化在磁盤上，所以我們快速來查詢歷史的系統數據。當然實時的應用情況也是可以查詢的啦。大部分機器上都有安裝。

tsar ##可以查看最近一天的各項指標

tsar --live ##可以查看實時指標，默認五秒一刷

tsar -d 20161218 ##指定查看某天的數據，貌似最多隻能看四個月的數據

tsar --mem
tsar --load
tsar --cpu
##當然這個也可以和-d參數配合來查詢某天的單個指標的情況

top

top除瞭看一些基本信息之外，剩下的就是配合來查詢vm的各種問題瞭

ps -ef | grep java
top -H -p pid

獲得線程10進制轉16進制後jstack去抓看這個線程到底在幹啥

其他

netstat -nat|awk '{print $6}'|sort|uniq -c|sort -rn
#查看當前連接，註意close_wait偏高的情況，比如如下

排查利器

btrace

首當其沖的要說的是btrace。真是生產環境&預發的排查問題大殺器。簡介什麼的就不說瞭。直接上代碼幹

查看當前誰調用瞭ArrayList的add方法，同時隻打印當前ArrayList的size大於500的線程調用棧

@OnMethod(clazz = "java.util.ArrayList", method="add", location = @Location(value = Kind.CALL, clazz = "/./", method = "/./"))
public static void m(@ProbeClassName String probeClass, @ProbeMethodName String probeMethod, @TargetInstance Object instance, @TargetMethodOrField String method) {
 
if(getInt(field("java.util.ArrayList", "size"), instance) > 479){
 println("check who ArrayList.add method:" + probeClass + "#" + probeMethod + ", method:" + method + ", size:" + getInt(field("java.util.ArrayList", "size"), instance));
 jstack();
 println();
 println("===========================");
 println();
}
}

監控當前服務方法被調用時返回的值以及請求的參數

@OnMethod(clazz = "com.taobao.sellerhome.transfer.biz.impl.C2CApplyerServiceImpl", method="nav", location = @Location(value = Kind.RETURN))
public static void mt(long userId, int current, int relation, String check, String redirectUrl, @Return AnyType result) {
 
 println("parameter# userId:" + userId + ", current:" + current + ", relation:" + relation + ", check:" + check + ", redirectUrl:" + redirectUrl + ", result:" + result);
}

其他功能集團的一些工具或多或少都有，就不說瞭。感興趣的請移步。

https://github.com/btraceio/btrace

註意:

經過觀察，1.3.9的release輸出不穩定，要多觸發幾次才能看到正確的結果

正則表達式匹配trace類時范圍一定要控制，否則極有可能出現跑滿CPU導致應用卡死的情況

由於是字節碼註入的原理，想要應用恢復到正常情況，需要重啟應用。

Greys

Greys是@杜琨的大作吧。說幾個挺棒的功能(部分功能和btrace重合):

sc -df xxx: 輸出當前類的詳情,包括源碼位置和classloader結構

trace class method: 相當喜歡這個功能! 很早前可以早JProfiler看到這個功能。打印出當前方法調用的耗時情況，細分到每個方法。對排查方法性能時很有幫助。

另外相關聯的是arthas，他是基於Greys的。

javOSize

就說一個功能

classes：通過修改瞭字節碼，改變瞭類的內容，即時生效。所以可以做到快速的在某個地方打個日志看看輸出，缺點是對代碼的侵入性太大。但是如果自己知道自己在幹嘛，的確是不錯的玩意兒。

其他功能Greys和btrace都能很輕易做的到，不說瞭。

JProfiler

之前判斷許多問題要通過JProfiler，但是現在Greys和btrace基本都能搞定瞭。再加上出問題的基本上都是生產環境(網絡隔離)，所以基本不怎麼使用瞭，但是還是要標記一下。

官網請移步

https://www.ej-technologies.com/products/jprofiler/overview.html

大殺器

eclipseMAT

可作為eclipse的插件，也可作為單獨的程序打開。

zprofiler

集團內的開發應該是無人不知無人不曉瞭。簡而言之一句話:有瞭zprofiler還要mat幹嘛

java三板斧，噢不對，是七把

jps

我隻用一條命令：

sudo -u admin /opt/taobao/java/bin/jps -mlvV

jstack

普通用法:

sudo -u admin /opt/taobao/install/ajdk-8_1_1_fp1-b52/bin/jstack 2815

native+java棧:

sudo -u admin /opt/taobao/install/ajdk-8_1_1_fp1-b52/bin/jstack -m 2815

jinfo

可看系統啟動的參數，如下

sudo -u admin /opt/taobao/install/ajdk-8_1_1_fp1-b52/bin/jinfo -flags 2815

jmap

兩個用途

1.查看堆的情況

sudo -u admin /opt/taobao/install/ajdk-8_1_1_fp1-b52/bin/jmap -heap 2815

2.dump

sudo -u admin /opt/taobao/install/ajdk-8_1_1_fp1-b52/bin/jmap -dump:live,format=b,file=/tmp/heap2.bin 2815

或者

sudo -u admin /opt/taobao/install/ajdk-8_1_1_fp1-b52/bin/jmap -dump:format=b,file=/tmp/heap3.bin 2815

3.看看堆都被誰占瞭? 再配合zprofiler和btrace，排查問題簡直是如虎添翼

sudo -u admin /opt/taobao/install/ajdk-8_1_1_fp1-b52/bin/jmap -histo 2815 | head -10

jstat

jstat參數眾多，但是使用一個就夠瞭

sudo -u admin /opt/taobao/install/ajdk-8_1_1_fp1-b52/bin/jstat -gcutil 2815 1000

jdb

時至今日，jdb也是經常使用的。

jdb可以用來預發debug,假設你預發的java_home是/opt/taobao/java/，遠程調試端口是8000.那麼

sudo -u admin /opt/taobao/java/bin/jdb -attach 8000

出現以上代表jdb啟動成功。後續可以進行設置斷點進行調試。

CHLSDB

CHLSDB感覺很多情況下可以看到更好玩的東西，不詳細敘述瞭。查詢資料聽說jstack和jmap等工具就是基於它的。

sudo -u admin /opt/taobao/java/bin/java -classpath /opt/taobao/java/lib/sa-jdi.jar sun.jvm.hotspot.CLHSDB

plugin of intellij idea

key promoter

快捷鍵一次你記不住，多來幾次你總能記住瞭吧？

maven helper

分析maven依賴的好幫手。

VM options

1.你的類到底是從哪個文件加載進來的？

-XX:+TraceClassLoading
結果形如[Loaded java.lang.invoke.MethodHandleImpl$Lazy from D:\programme\jdk\jdk8U74\jre\lib\rt.jar]

2.應用掛瞭輸出dump文件

-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/home/admin/logs/java.hprof
集團的vm參數裡邊基本都有這個選項

jar包沖突

把這個單獨寫個大標題不過分吧？每個人或多或少都處理過這種煩人的case。我特麼下邊這麼多方案不信就搞不定你?

mvn dependency:tree > ~/dependency.txt

打出所有依賴

mvn dependency:tree -Dverbose -Dincludes=groupId:artifactId

隻打出指定groupId和artifactId的依賴關系

-XX:+TraceClassLoading

vm啟動腳本加入。在tomcat啟動腳本中可見加載類的詳細信息

-verbose

vm啟動腳本加入。在tomcat啟動腳本中可見加載類的詳細信息

greys:sc

greys的sc命令也能清晰的看到當前類是從哪裡加載過來的

tomcat-classloader-locate

通過以下url可以獲知當前類是從哪裡加載的

ALI-TOMCAT帶給我們的驚喜(感謝@務觀)

列出容器加載的jar列表

列出當前當當前類加載的實際jar包位置，解決類沖突時有用

其他

gpref

http://www.atatech.org/articles/33317

dmesg

如果發現自己的java進程悄無聲息的消失瞭，幾乎沒有留下任何線索，那麼dmesg一發，很有可能有你想要的。

sudo dmesg|grep -i kill|less

去找關鍵字oom_killer。找到的結果類似如下:

[6710782.021013] java invoked oom-killer: gfp_mask=0xd0, order=0, oom_adj=0, oom_scoe_adj=0
[6710782.070639] [<ffffffff81118898>] ? oom_kill_process+0x68/0x140
[6710782.257588] Task in /LXC011175068174 killed as a result of limit of /LXC011175068174
[6710784.698347] Memory cgroup out of memory: Kill process 215701 (java) score 854 or sacrifice child
[6710784.707978] Killed process 215701, UID 679, (java) total-vm:11017300kB, anon-rss:7152432kB, file-rss:1232kB

以上表明，對應的java進程被系統的OOM Killer給幹掉瞭，得分為854.

解釋一下OOM killer（Out-Of-Memory killer），該機制會監控機器的內存資源消耗。當機器內存耗盡前，該機制會掃描所有的進程（按照一定規則計算，內存占用，時間等），挑選出得分最高的進程，然後殺死，從而保護機器。

dmesg日志時間轉換公式:

log實際時間=格林威治1970-01-01+(當前時間秒數-系統啟動至今的秒數+dmesg打印的log時間)秒數：

date -d "1970-01-01 UTC `echo "$(date +%s)-$(cat /proc/uptime|cut -f 1 -d' ')+12288812.926194"|bc ` seconds"

剩下的，就是看看為什麼內存這麼大，觸發瞭OOM-Killer瞭。

新技能get

RateLimiter

想要精細的控制QPS? 比如這樣一個場景，你調用某個接口，對方明確需要你限制你的QPS在400之內你怎麼控制？這個時RateLimiter就有瞭用武之地。詳情可移步http://ifeve.com/guava-ratelimiter/

到此這篇關於超詳細的Java 問題排查工具單的文章就介紹到這瞭,更多相關Java 問題排查工具單內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet！

超詳細的Java 問題排查工具單

前言

Linux命令類

tail

awk

find

pgm

tsar

top

其他

排查利器

jar包沖突

推薦閱讀：

發佈留言取消回覆

近期文章

前言

Linux命令類

tail

awk

find

pgm

tsar

top

其他

排查利器

jar包沖突

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆