如何将 perf 工具与 docker 运行 stress-ng 一起使用?

How to use perf tool with docker running stress-ng?

我正在使用来自 https://hub.docker.com/r/polinux/stress-ng/dockerfile 的 stress-ng docker 图像对我的系统进行压力测试。我想使用 perf 工具来监控指标。

perf stat -- stress-ng --cpu 2 --timeout 10 运行s stress-ng 10 秒和 returns 性能指标。我尝试使用 perf stat -- docker run -ti --rm polinux/stress-ng --cpu 2 --timeout 10 对 docker 图像执行相同的操作。此 returns 指标而非 stress-ng 的指标。

我在 stress-ng 上使用 'perf stat' 时得到的输出:

Performance counter stats for 'stress-ng --cpu 2 --timeout 10':

  19975.863889      task-clock (msec)         #    1.992 CPUs utilized          
         2,057      context-switches          #    0.103 K/sec                  
             7      cpu-migrations            #    0.000 K/sec                  
         8,783      page-faults               #    0.440 K/sec                  
52,568,560,651      cycles                    #    2.632 GHz                    
89,424,109,426      instructions              #    1.70  insn per cycle         
17,496,929,762      branches                  #  875.904 M/sec                  
    97,910,697      branch-misses             #    0.56% of all branches        

  10.025825765 seconds time elapsed

我在 docker 图像上使用 perf 工具时得到的输出:

Performance counter stats for 'docker run -ti --rm polinux/stress-ng --cpu 2 --timeout 10':

    154.613610      task-clock (msec)         #    0.014 CPUs utilized          
           858      context-switches          #    0.006 M/sec                  
           113      cpu-migrations            #    0.731 K/sec                  
         4,989      page-faults               #    0.032 M/sec                  
   252,242,504      cycles                    #    1.631 GHz                    
   375,927,959      instructions              #    1.49  insn per cycle         
    84,847,109      branches                  #  548.769 M/sec                  
     1,127,634      branch-misses             #    1.33% of all branches        

  10.704752134 seconds time elapsed

有人可以帮助我在 运行 使用 docker 时如何获取 stress-ng 的指标吗?

继续@osgx 的评论,

here所述,默认情况下,perf stat命令不仅会监视要监视的进程的所有线程,还会监视其子进程和线程。

这种情况下的问题是,通过 运行ning perf stat 和监视 docker run stress-ng 命令,您没有监视实际的 stress-ng 进程。重要的是要注意,进程 运行ning 作为容器的一部分,实际上不会由 docker 客户端启动,而是由 docker-containerd-shim 进程(它是孙子进程)启动dockerd 进程的进程)。

如果你 运行 docker 命令到容器内的 运行 stress-ng 并观察进程树,它就会变得很明显。

docker run -ti --name=stress-ng --rm polinux/stress-ng --cpu 2 --timeout 100

ps -elf | grep docker

0 S ubuntu    26379 114001  0  80   0 - 119787 futex_ 12:33 pts/3   00:00:00 docker run -ti --name=stress-ng --rm polinux/stress-ng --cpu 2 --timeout 10000
4 S root      26431 118477  0  80   0 -  2227 -      12:33 ?        00:00:00 docker-containerd-shim -namespace moby -workdir /var/lib/docker/containerd/daemon/io.containerd.runtime.v1.linux/moby/72a8c2787390669ff4eeae6f343ab4f9f60434f39aae66b1a778e78b7e5e45d8 -address /var/run/docker/containerd/docker-containerd.sock -containerd-binary /usr/bin/docker-containerd -runtime-root /var/run/docker/runtime-runc
0 S ubuntu    26610  26592  0  80   0 -  3236 pipe_w 12:34 pts/6    00:00:00 grep --color=auto docker
4 S root     118453      1  3  80   0 - 283916 -     May02 ?        01:01:57 /usr/bin/dockerd -H fd://
4 S root     118477 118453  4  80   0 - 457853 -     May02 ?        01:14:36 docker-containerd --config /var/run/docker/containerd/containerd.toml

----------------------------------------------------------------------

ps -elf | grep stress-ng

0 S ubuntu    26379 114001  0  80   0 - 119787 futex_ 12:33 pts/3   00:00:00 docker run -ti --name=stress-ng --rm polinux/stress-ng --cpu 2 --timeout 10000
4 S root      26455  26431  0  80   0 - 16621 -      12:33 pts/0    00:00:00 /usr/bin/stress-ng --cpu 2 --timeout 10000
1 R root      26517  26455 99  80   0 - 16781 -      12:33 pts/0    00:01:08 /usr/bin/stress-ng --cpu 2 --timeout 10000
1 R root      26518  26455 99  80   0 - 16781 -      12:33 pts/0    00:01:08 /usr/bin/stress-ng --cpu 2 --timeout 10000
0 S ubuntu    26645  26592  0  80   0 -  3236 pipe_w 12:35 pts/6    00:00:00 grep --color=auto stress-ng

第一个stress-ng进程的PPID是26431,不是docker run命令,而是docker-containerd-shim进程。监视 docker run 命令永远不会反映正确的值,因为 docker 客户端完全脱离了启动 stress-ng 命令的过程。

  • 解决此问题的一种方法是将 perf stat 命令附加到由 docker 运行 时间启动的 stress-ng 进程的 PID。

例如,如上例,启动docker run命令后,您可以立即开始执行此操作-

perf stat -p 26455,26517,26518

 Performance counter stats for process id '26455,26517,26518':

     148171.516145      task-clock (msec)         #    1.939 CPUs utilized          
                49      context-switches          #    0.000 K/sec                  
                 0      cpu-migrations            #    0.000 K/sec                  
                67      page-faults               #    0.000 K/sec                  

您可以稍微增加 --timeout 以便命令 运行 更长,因为您现在开始 perf stat post 开始 stress-ng .此外,您还必须考虑损失的一小部分初始测量时间。

  • 另一种方法是 运行 perf stat 在 docker 容器内,类似于 docker run perf stat ...,但为此你必须开始提供 privileges 到您的容器,因为默认情况下,perf_event_open 系统调用在 docker 中被列入黑名单。您可以阅读此答案