如何使用 systemd 管理一组 resque worker?
How to manage a group of resque workers using systemd?
我正在尝试将一组 resque 工作人员的控制权从 upstart 转移到 systemd。在 upstart 下,我们能够拥有两个控制脚本,一个脚本定义了一个 worker,另一个脚本多次调用第一个脚本以使用单个 upstart 命令启动或停止多个 worker。我们正在尝试使用 systemd 实现相同的功能。
我试过每个工人使用一个 systemd 单元,所以如果我们试图管理 6 个工人,我们使用 6 个独立的 systemd 单元脚本,每个工人一个。然后我们使用 bash 脚本来触发:
systemctl start|stop|restart worker-1.service &
systemctl start|stop|restart worker-2.service &
...
问题是,当我们通过 systemctl 发送 kill 信号时,它会立即杀死父 resque 进程,导致任何分叉的子 worker 立即死亡,而不是在死亡之前完成他们的工作。我们能够使用 upstart 实现这种确切的行为,其中父进程不会接受新工作(将停止分叉),并且在工作完成子工作进程后,允许子工作进程在工作时保持活动状态自行死亡。
在 systemd 下,worker 全部立即死亡,作业在完成之前中途终止。
我们的 systemd 单元脚本如下所示:
[Unit]
Description=Controls a single Resque worker process: worker-1
After=redis.service
[Service]
Restart=on-failure
RestartSec=10
StartLimitInterval=400
StartLimitBurst=5
KillSignal=SIGQUIT
User=www-data
WorkingDirectory=/app/working/dir
Type=single
ExecStart=/usr/bin/bundle exec rake production resque:work QUEUE=a,b,c,d,e,f
ExecStop=/bin/kill -QUIT $MAINPID
[Install]
WantedBy=multi-user.target
我试过将 Type=single 更改为 Type=forking,但是进程没有停止,它尝试启动,然后当没有可用的作业时,因为父进程只有在有作业时才会 fork,进程死亡并且无法熬夜。使用 Type=simple,进程按预期工作,但如上所述,我们无法像使用 upstart 那样优雅地控制它们。
我们的 bash 脚本如下所示:
systemctl $COMMAND resque-worker-1.service &
每个工作人员服务都有一个命令。 $COMMAND 只是传递给 (start|stop|restart) 脚本的参数。
之前使用的upstart脚本:
从运行级别 [2345] 开始
停在运行级别 [06]
终止信号退出
我想我自己解决了这个问题。通过删除此指令:
ExecStop=/bin/kill -QUIT $MAINPID
当我现在发出 systemctl stop resque-worker-n.service 时,它会优雅地等待作业完成,然后再杀死工作人员。
虽然注意到某些作业仍会立即退出,因此添加了此指令:
KillMode=process
但随后注意到,稍后重新启动 worker 时,"completed" 作业被 resque 视为可排队,因此会再次错误地排队。所以添加了这个指令:
SendSIGKILL=no
现在的行为似乎与我们之前使用 upstart 时的行为相同。
我正在尝试将一组 resque 工作人员的控制权从 upstart 转移到 systemd。在 upstart 下,我们能够拥有两个控制脚本,一个脚本定义了一个 worker,另一个脚本多次调用第一个脚本以使用单个 upstart 命令启动或停止多个 worker。我们正在尝试使用 systemd 实现相同的功能。
我试过每个工人使用一个 systemd 单元,所以如果我们试图管理 6 个工人,我们使用 6 个独立的 systemd 单元脚本,每个工人一个。然后我们使用 bash 脚本来触发:
systemctl start|stop|restart worker-1.service &
systemctl start|stop|restart worker-2.service &
...
问题是,当我们通过 systemctl 发送 kill 信号时,它会立即杀死父 resque 进程,导致任何分叉的子 worker 立即死亡,而不是在死亡之前完成他们的工作。我们能够使用 upstart 实现这种确切的行为,其中父进程不会接受新工作(将停止分叉),并且在工作完成子工作进程后,允许子工作进程在工作时保持活动状态自行死亡。
在 systemd 下,worker 全部立即死亡,作业在完成之前中途终止。
我们的 systemd 单元脚本如下所示:
[Unit]
Description=Controls a single Resque worker process: worker-1
After=redis.service
[Service]
Restart=on-failure
RestartSec=10
StartLimitInterval=400
StartLimitBurst=5
KillSignal=SIGQUIT
User=www-data
WorkingDirectory=/app/working/dir
Type=single
ExecStart=/usr/bin/bundle exec rake production resque:work QUEUE=a,b,c,d,e,f
ExecStop=/bin/kill -QUIT $MAINPID
[Install]
WantedBy=multi-user.target
我试过将 Type=single 更改为 Type=forking,但是进程没有停止,它尝试启动,然后当没有可用的作业时,因为父进程只有在有作业时才会 fork,进程死亡并且无法熬夜。使用 Type=simple,进程按预期工作,但如上所述,我们无法像使用 upstart 那样优雅地控制它们。
我们的 bash 脚本如下所示:
systemctl $COMMAND resque-worker-1.service &
每个工作人员服务都有一个命令。 $COMMAND 只是传递给 (start|stop|restart) 脚本的参数。
之前使用的upstart脚本:
从运行级别 [2345] 开始 停在运行级别 [06]
终止信号退出
我想我自己解决了这个问题。通过删除此指令:
ExecStop=/bin/kill -QUIT $MAINPID
当我现在发出 systemctl stop resque-worker-n.service 时,它会优雅地等待作业完成,然后再杀死工作人员。
虽然注意到某些作业仍会立即退出,因此添加了此指令:
KillMode=process
但随后注意到,稍后重新启动 worker 时,"completed" 作业被 resque 视为可排队,因此会再次错误地排队。所以添加了这个指令:
SendSIGKILL=no
现在的行为似乎与我们之前使用 upstart 时的行为相同。