Elasticsearch6.2服務器升配後的bug(避坑指南)

本篇文章記錄最近一次生產服務器硬件升級之後引起集群不穩定的現象,希望可以幫到有其它人避免采坑。

一、問題描述

升級後出現的異常如下:

出現限流日志:stop throttling indexing: numMergesInFlight=8, maxNumMerges=9應用寫入集群的rt耗時變高,同時集群監控的indexing的時長也變高mlocked的內存調用一直在增長

二、升級過程升配前

ES version:6.2.4

配置:32C64G

環境:阿裡雲ecs自建

gc:cms

jvm:30GB

升配後

ES version:6.2.4

配置:64C128G

環境:阿裡雲ecs自建

gc:cms

jvm:30GB

三、處理步驟

升配之後第二天首先應用表現出異常,寫入ES的耗時變高瞭好十幾倍,從40ms上升到600ms;升配導致集群變慢還是頭一次遇到。通過對集群監控分析集群整體負載正常比升配之前有所下降,但是indexing的寫入耗時監控確實比升配之前增長瞭很多。在ES的輸出日志中出現瞭異常日志"stop throttling indexing: numMergesInFlight=8, maxNumMerges=9";

1.限流處理

當時懷疑應該是這個限流導致,ES的限流的主要目的是出於對集群的保護避免產生過多的段影響性能,說白瞭就是段的合並跟不上寫入的速度,所以先來解決這個限流的問題,

由於配置文件沒有配置最大線程數和最大的合並線程數,所以這兩個值是用的是默認值

Spinning media has a harder time with concurrent I/O, so we need to decrease the number of threads that can concurrently access the disk per index. This setting will allow max_thread_count + 2 threads to operate on the disk at one time, so a setting of 1 will allow three threads.

index.merge.scheduler.max_thread_count
The maximum number of threads on a single shard that may be merging at once. Defaults to Math.max(1, Math.min(4, Runtime.getRuntime().availableProcessors() / 2)) which works well for a good solid-state-disk (SSD). If your index is on spinning platter drives instead, decrease this to 1.

註意:在6.x版本之後已經取消瞭"indices.store.throttle.max_bytes_per_sec",所以現在隻能通過調整max_thread_count,max_merge_count,默認max_thread_count最小是1最大是4,如果是機械盤推薦設1如果是ssd盤可以設成4或者更高,max_merge_count默認等於max_thread_count+5,也可以單獨設置

可以通過命令查看默認的集群參數配置:

GET _settings/?include_defaults

可以配置到配置文件當中,也可以通過以下命令針對索引進行動態設置:

PUT index_name/_settings 
{
    "index.merge.scheduler.max_thread_count": 4,
    "index.merge.scheduler.max_merge_count": 20
}

2.mlock

通過修改線程數之後,限流的問題解決瞭,但是應用的寫入rt耗時問題還是沒有得到解決 。通過對"hot_threads"進行分析發現主要的耗時還是在merge和index兩大塊,並且通過os層面的監控發現mlock的占用內存一直在增長,啟動參數配置文件設置在內存鎖定“bootstrap.memory_lock: true”不明白為什麼還會出現mlock的增長。

處理辦法:

將硬件配置降回到32C64G問題解決,增加一副本來提升查詢性能

3、總結

經過3天問題排查,網上也沒有找到類似的案例,網上更多的還是限流相關的案例,總結下來應該還是當前版本對於大內存的處理相關的bug,在7.x版本沒有出現類似的內存問題

到此這篇關於Elasticsearch6.2服務器升配後的bug的文章就介紹到這瞭,更多相關Elasticsearch6.2服務器內容請搜索WalkonNet以前的文章或繼續瀏覽下面的相關文章希望大傢以後多多支持WalkonNet!

推薦閱讀: