在 ruby 中杀死整个进程树

Killing entire process tree in ruby

所以我正在处理一些后台任务,最后我不得不生成一个子进程(使用另一个团队提供的二进制文件)。如果超时,我想在某个时候停止这样的过程。

看起来很简单。

def run!(command, timeout)
  Timeout.timeout(timeout) do
    stdin, stdout, wait_thr = Open3.popen2e(command)
    @pid = wait_thr.pid

    # ... boring and irrelevant...
  end
rescue Timeout::Error
  Process.kill 'TERM', @pid
  Process.wait pid

  raise
end

现在我也很喜欢在我的命令前加上对 time 的调用。不错的日志和所有。这使得命令像这样 (MacOS)

gtime -f 'Time spent %E memory used %M' some/binary --with parameters" 

所以我的进程树变成了这样

ruby (my background job)
 \__ gtime
      \__ some/binary

当然现在当我杀死子进程时,只有 gtime 被杀死,二进制文件继续存在。

  1. 如果我可以控制我用作直接子进程的可执行文件,我可能可以处理 TERM 并终止其直接子进程。但它是 time/gtime 所以我显然不知道。但也许有一些神秘的参数?
  2. docs 提到了进程组,但是子进程当然与我的父进程共享同一个进程组。有没有办法在新的进程组中生成一个进程,从而使“杀死整个进程组”选项可行?

我也可能会解析 ps 输出,构建一个进程树并遍历它一个一个地杀死进程,但这似乎有点矫枉过正(抱歉)。我在这里缺少一些非常基本的东西吗?

而不是解析 ps 的输出,你可能想看看 pgrep. Doing a bit of detective work and discovering some code,我们发现这个方便的函数:

# get child pids ordered by youngest descendants first
def child_processes(pid)
  pids = `pgrep -P #{pid}`.split("\n").map(&:to_i)
  pids.flat_map { |p| child_processes(p) } + pids
end

假设我们有一个这样的进程树(来自我的机器的示例):

 9088 pts/3    Sl+    1:13  \_ ruby smtserver.rb
 9092 pts/3    Sl     0:41      \_ /usr/local/bin/chromedriver --port=9516
 9101 pts/3    Sl    10:36          \_ /usr/lib/chromium-browser/chromium-browser
 9111 pts/3    S      0:00              \_ /usr/lib/chromium-bro ser/chromium-bro
 9113 pts/3    S      0:00              |   \_ /usr/lib/chromium-bro ser/chromium
 9154 pts/3    Sl    14:06              |       \_ /usr/lib/chromium-bro ser/chro
 9187 pts/3    Sl     0:07              |       \_ /usr/lib/chromium-bro ser/chro
 9135 pts/3    Sl     2:08              \_ /usr/lib/chromium-browser/chromium-bro
 9312 pts/3    Sl     4:44              \_ /usr/lib/chromium-browser/chromium-bro

现在做 child_processes(9092),我们得到这个:

[9154, 9187, 9113, 9111, 9135, 9312, 9101]

然后你就有足够的信息在需要时单独杀死整棵树。

gtime 的情况下,只需杀死您的 some/binary 就足够了,然后 gmtime 将自行退出。假设 some/binary 没有创造更多 children,这样的事情应该可以解决您的问题:

rescue Timeout::Error
  Process.kill 'TERM', child_processes(@pid).last
  Process.wait @pid

您可以通过传递 pgroup: true 在新的 进程组 中启动进程:(有关可用选项,请参阅 Process.spawn 的文档)

stdin, stdout, wait_thr = Open3.popen2e(command, pgroup: true)

然后可以通过在信号前加上负号,通过其进程组 ID kill 编辑整个进程组:

If signal is negative (or starts with a minus sign), kills process groups instead of processes.

pgid = Process.getpgid(wait_thr.pid)
Process.kill '-TERM', pgid