docker 內存監控與壓測方式

Posted on 2021-03-19 by WalkonNet

一直運行的docker容器顯示內存已經耗盡，並且容器內存耗盡也沒出現重啟情況，通過後臺查看發現進程沒有占用多少內存。內存的監控使用的是cadvisor，計算方式也是使用cadvisor的頁面計算方式，所以決定對docker的內存計算做下研究。

docker version:

Client:
 Version:  1.12.6
 API version: 1.24
 Go version: go1.6.4
 Git commit: 78d1802
 Built:  Tue Jan 10 20:20:01 2017
 OS/Arch:  linux/amd64

Server:
 Version:  1.12.6
 API version: 1.24
 Go version: go1.6.4
 Git commit: 78d1802
 Built:  Tue Jan 10 20:20:01 2017
 OS/Arch:  linux/amd64

kubernetes version:

Client Version: version.Info{Major:"1", Minor:"8", GitVersion:"v1.8.2+coreos.0", GitCommit:"4c0769e81ab01f47eec6f34d7f1bb80873ae5c2b", GitTreeState:"clean", BuildDate:"2017-10-25T16:24:46Z", GoVersion:"go1.8.3", Compiler:"gc", Platform:"linux/amd64"}
Server Version: version.Info{Major:"1", Minor:"8", GitVersion:"v1.8.2+coreos.0", GitCommit:"4c0769e81ab01f47eec6f34d7f1bb80873ae5c2b", GitTreeState:"clean", BuildDate:"2017-10-25T16:24:46Z", GoVersion:"go1.8.3", Compiler:"gc", Platform:"linux/amd64"}

1.創建pod yaml文件，使用busybox鏡像做測試，對鏡像設定2核2G內存的限制

[docker@k8s busybox]$ cat busybox.yaml


apiVersion: v1
kind: Pod
metadata:
 name: busybox
 namespace: default
spec:
 containers:
 - image: registry.dcos:8021/public/busybox:latest
 command:
  - sleep
  - "3600"
 imagePullPolicy: IfNotPresent
 name: busybox
 resources:
  limits:
  cpu: "2"
  memory: 2Gi
  requests:
  cpu: 100m
  memory: 64Mi
 restartPolicy: Always

2.通過kubectl命令生成busybox服務

[docker@k8s busybox]$ kubectl create -f busybox.yaml


pod "busybox" created

3.進入容器的/sys/fs/cgroup/memory目錄，ls查看得到如下文件

-rw-r--r-- 1 root  root   0 May 31 03:18 cgroup.clone_children
--w--w--w- 1 root  root   0 May 31 03:18 cgroup.event_control
-rw-r--r-- 1 root  root   0 May 31 03:18 cgroup.procs
-rw-r--r-- 1 root  root   0 May 31 03:18 memory.failcnt
--w------- 1 root  root   0 May 31 03:18 memory.force_empty
-rw-r--r-- 1 root  root   0 May 31 03:18 memory.kmem.failcnt
-rw-r--r-- 1 root  root   0 May 31 03:18 memory.kmem.limit_in_bytes
-rw-r--r-- 1 root  root   0 May 31 03:18 memory.kmem.max_usage_in_bytes
-r--r--r-- 1 root  root   0 May 31 03:18 memory.kmem.slabinfo
-rw-r--r-- 1 root  root   0 May 31 03:18 memory.kmem.tcp.failcnt
-rw-r--r-- 1 root  root   0 May 31 03:18 memory.kmem.tcp.limit_in_bytes
-rw-r--r-- 1 root  root   0 May 31 03:18 memory.kmem.tcp.max_usage_in_bytes
-r--r--r-- 1 root  root   0 May 31 03:18 memory.kmem.tcp.usage_in_bytes
-r--r--r-- 1 root  root   0 May 31 03:18 memory.kmem.usage_in_bytes
-rw-r--r-- 1 root  root   0 May 31 03:18 memory.limit_in_bytes
-rw-r--r-- 1 root  root   0 May 31 03:18 memory.max_usage_in_bytes
-rw-r--r-- 1 root  root   0 May 31 03:18 memory.memsw.failcnt
-rw-r--r-- 1 root  root   0 May 31 03:18 memory.memsw.limit_in_bytes
-rw-r--r-- 1 root  root   0 May 31 03:18 memory.memsw.max_usage_in_bytes
-r--r--r-- 1 root  root   0 May 31 03:18 memory.memsw.usage_in_bytes
-rw-r--r-- 1 root  root   0 May 31 03:18 memory.move_charge_at_immigrate
-r--r--r-- 1 root  root   0 May 31 03:18 memory.numa_stat
-rw-r--r-- 1 root  root   0 May 31 03:18 memory.oom_control
---------- 1 root  root   0 May 31 03:18 memory.pressure_level
-rw-r--r-- 1 root  root   0 May 31 03:18 memory.soft_limit_in_bytes
-r--r--r-- 1 root  root   0 May 31 03:18 memory.stat
-rw-r--r-- 1 root  root   0 May 31 03:18 memory.swappiness
-r--r--r-- 1 root  root   0 May 31 03:18 memory.usage_in_bytes
-rw-r--r-- 1 root  root   0 May 31 03:18 memory.use_hierarchy
-rw-r--r-- 1 root  root   0 May 31 03:18 notify_on_release
-rw-r--r-- 1 root  root   0 May 31 03:18 tasks

我們主要關註一下幾個文件

文件名	含義
memory.usage_in_bytes	已使用的內存量(包含cache和buffer)(字節)，相當於linux的used_meme
memory.limit_in_bytes	限制的內存總量(字節)，相當於linux的total_mem
memory.failcnt	申請內存失敗次數計數
memory.stat	內存相關狀態

memory.stat的文件包含的內容

字段	含義
cache	頁緩存，包括 tmpfs（shmem），單位為字節
rss	匿名和 swap 緩存，不包括 tmpfs（shmem），單位為字節
mapped_file	memory-mapped 映射的文件大小，包括 tmpfs（shmem），單位為字節
pgpgin	存入內存中的頁數
pgpgout	從內存中讀出的頁數
swap	swap 用量，單位為字節
active_anon	在活躍的最近最少使用（least-recently-used，LRU）列表中的匿名和 swap 緩存，包括 tmpfs（shmem），單位為字節
inactive_anon	不活躍的 LRU 列表中的匿名和 swap 緩存，包括 tmpfs（shmem），單位為字節
active_file	活躍 LRU 列表中的 file-backed 內存，以字節為單位
inactive_file	不活躍 LRU 列表中的 file-backed 內存，以字節為單位
unevictable	無法再生的內存，以字節為單位
hierarchical_memory_limit	包含 memory cgroup 的層級的內存限制，單位為字節
hierarchical_memsw_limit	包含 memory cgroup 的層級的內存加 swap 限制，單位為字節

查看memory.limit_in_bytes文件

/sys/fs/cgroup/memory # cat memory.limit_in_bytes 
2147483648

計算容器的限制內存為2g，和yaml文件裡面定義的限制內存一樣。查看memory.usag_in_bytes文件

/sys/fs/cgroup/memory # cat memory.usage_in_bytes 
2739376

通過docker stats 容器id查看容器的占用內存，和memory.usage_in_bytes的數據相符。

4.使用dd命令快速生成1.5g大文件

~ # dd if=/dev/zero of=test bs=1M count=1500
1500+0 records in
1500+0 records out
1572864000 bytes (1.5GB) copied, 1.279989 seconds, 1.1GB/s

再次通過docker stats 容器id查看容器的占用內存

查看memory.usage_in_bytes文件

/sys/fs/cgroup/memory # cat memory.usage_in_bytes 
1619329024

發現容器的占用內存達到瞭1.5g，查看memory.stat

/sys/fs/cgroup/memory # cat memory.stat
cache 1572868096
rss 147456
rss_huge 0
mapped_file 0
dirty 1572868096
writeback 0
swap 0
pgpgin 384470
pgpgout 433
pgfault 607
pgmajfault 0
inactive_anon 77824
active_anon 12288
inactive_file 1572864000
active_file 4096
unevictable 0
hierarchical_memory_limit 2147483648
hierarchical_memsw_limit 4294967296
total_cache 1572868096
total_rss 147456
total_rss_huge 0
total_mapped_file 0
total_dirty 1572868096
total_writeback 0
total_swap 0
total_pgpgin 384470
total_pgpgout 433
total_pgfault 607
total_pgmajfault 0
total_inactive_anon 77824
total_active_anon 12288
total_inactive_file 1572864000
total_active_file 4096
total_unevictable 0

memory.stat文件中的cache字段添加瞭1.5g，而inactive_file字段為1.5g，因此，dd所產生的文件cache計算在inactive_file上。這就導致瞭所看到的容器內存的監控居高不下，因為cache是可重用的，並不能反映進程占用內存。

一般情況下，計算監控內存可根據計算公式：

active_anon + inactive_anon = anonymous memory + file cache for tmpfs + swap cache
Therefore
active_anon + inactive_anon ≠ rss, because rss does not include tmpfs.
active_file + inactive_file = cache - size of tmpfs

所以實際內存使用計算為：

real_used = memory.usage_in_bytes - (active_file + inactive_file)

5.壓測

(1)準備tomcat鏡像和jmeter壓測工具，tomcat的yaml文件如下

apiVersion: extensions/v1beta1
kind: Deployment
metadata:
 name: tomcat-deployment
spec:
 replicas: 1
 template:
 metadata:
  labels:
  app: tomcat
 spec:
  containers:
  - name: tomcat
  image: registy.dcos:8021/public/tomcat:8
  ports:
  - containerPort: 8080
  resources:
   limits:
   cpu: "1"
   memory: 300Mi
--- 
apiVersion: v1
kind: Service
metadata:
 labels:
 name: tomcat
 name: tomcat
 namespace: default
spec:
 ports:
 - name: tomcat
 port: 8080
 protocol: TCP
 targetPort: 8080
 type: NodePort 
 selector:
 app: tomcat

yaml文件中限制tomcat鏡像的使用內存為300Mi，執行命令生成文件。通過docker stats查看沒有負載情況下tomcat容器的內存占用。

(2)提取tomcat的service nodePort端口

[docker@ecs-5f72-0006 ~]$ kubectl get svc tomcat -o=custom-columns=nodePort:.spec.ports[0].nodePort
nodePort
31401

(3)登陸jmeter官網下載壓測工具

在windows上運行jmeter工具，到bin目錄點擊運行jmeter，配置jmeter如下：

配置好測試選項後點擊啟動按鈕開始壓測，通過docker stats查看容器內存使用情況發現已經到達限制。

通過kubectl get pods查看pod的運行情況發現tomcat由於內存超過限制值被kill掉。

總結

關於docker stats內存監控的問題一直存在，docker將cache/buffer納入內存計算引起誤解。docker內存的計算方式和linux的內存使用計算方式一致，也包含瞭cache/buffer。

但是cache是可重復利用的，經常使用在I/O請求上，使用內存來緩解可能被再次訪問的數據，為提高系統性能。

在官方github上，也有很多人提交瞭關於內存監控的issue，直到瞭Docker 17.06版本，docker stats才解決瞭這個問題。

但是這也僅僅是docker stats的顯示看起來正常瞭，而進入容器查看內存的使用還是包含的cache，如果直接使用cadvisor搜集的數據，還是會出現包含瞭cache的情況。

通過壓測docker，最後發現當壓測到程序的限制內存時，pod出現重啟，這也解釋瞭我們在使用docker監控時，即使內存占用99%+，卻不出現pod重啟的情況，這裡面有相當一部分的內存是cache占用。

以上為個人經驗，希望能給大傢一個參考，也希望大傢多多支持WalkonNet。如有錯誤或未考慮完全的地方，望不吝賜教。

docker 內存監控與壓測方式

1.創建pod yaml文件，使用busybox鏡像做測試，對鏡像設定2核2G內存的限制

2.通過kubectl命令生成busybox服務

3.進入容器的/sys/fs/cgroup/memory目錄，ls查看得到如下文件

4.使用dd命令快速生成1.5g大文件

5.壓測

總結

推薦閱讀：

發佈留言取消回覆

近期文章

1.創建pod yaml文件，使用busybox鏡像做測試，對鏡像設定2核2G內存的限制

2.通過kubectl命令生成busybox服務

3.進入容器的/sys/fs/cgroup/memory目錄，ls查看得到如下文件

4.使用dd命令快速生成1.5g大文件

5.壓測

總結

推薦閱讀：

發佈留言 取消回覆

近期文章

標籤

發佈留言取消回覆