同时 fork 100 个进程,有时一些进程变成僵尸
fork 100 processes at same time and sometimes some processes become zombie
我尝试在以下代码中同时启动 100 个进程:
int cnt = 0;
void sig_handler(int signo) {
pid_t pid;
int stat;
pid = wait(&stat);
cout << "cnt:" << ++cnt << ", pid:" << pid << " signal:" << signo << endl;
}
int main() {
signal(SIGCHLD, sig_handler);
for (int i = 0; i < 100; ++i) {
if (fork() == 0) {
sleep(1);
exit(0);
}
}
printf("wait\n");
while (1);
}
我在sig_handler
中捕捉到SIGCHLD
信号,结果不一样:有时所有进程returnOK;有时 1 到 4 个进程变成僵尸。
[vinllen@my-host]$ ./a.out
wait
cnt:1, pid:4383 signal:17
cnt:2, pid:4384 signal:17
cnt:3, pid:4385 signal:17
cnt:4, pid:4386 signal:17
cnt:5, pid:4387 signal:17
…
cnt:94, pid:4476 signal:17
cnt:95, pid:4477 signal:17
cnt:96, pid:4478 signal:17
cnt:97, pid:4479 signal:17
cnt:98, pid:4480 signal:17
[vinllen@my-host ~]$ ps aux | grep a.out
Vinllen 4382 96.2 0.0 13896 1084 pts/8 R+ 15:14 0:03 ./a.out
Vinllen 4481 0.0 0.0 0 0 pts/8 Z+ 15:14 0:00 [a.out] <defunct>
Vinllen 4482 0.0 0.0 0 0 pts/8 Z+ 15:14 0:00 [a.out] <defunct>
Vinllen 4493 0.0 0.0 105300 864 pts/9 S+ 15:14 0:00 grep a.out
我猜原因是不止一个进程同时退出并触发了什么。谁能给我详细的原因并告诉我如何解决这个问题。
在我的理解中,double fork和ignore SIGCHLD是解决这个问题的两种有效方法。但是,如何在这段仍然调用wait
的代码中解决。
信号未排队。如果一个 SIGCHLD 在一个挂起时被引发(可能是当你的代码在 write
系统调用中时),程序将只收到一个通知。
处理这个问题的正确方法是在你的处理程序中循环,直到所有完成的 children 被收割:
void sig_handler(int signo) {
pid_t pid;
int stat;
while ((pid = waitpid(-1, &stat, WNOHANG) > 0)
if (WIFEXITED(stat))
{
// Don't actually do this: you should
// avoid buffered I/O in signal handlers.
std::cout << "count:" << ++cnt
<< ", pid:" << pid
<< " signal:" << signo
<< std::endl;
}
}
如评论中所述,您应该坚持使用信号处理程序中记录的 async-signal-safe functions。缓冲 I/O(包括 std::cout
的使用)可能存在风险,因为信号处理程序可能会在操作其内部结构时被调用。避免问题的最佳方法是限制自己使用 volatile sig_atomic_t
变量与主代码通信。
我尝试在以下代码中同时启动 100 个进程:
int cnt = 0;
void sig_handler(int signo) {
pid_t pid;
int stat;
pid = wait(&stat);
cout << "cnt:" << ++cnt << ", pid:" << pid << " signal:" << signo << endl;
}
int main() {
signal(SIGCHLD, sig_handler);
for (int i = 0; i < 100; ++i) {
if (fork() == 0) {
sleep(1);
exit(0);
}
}
printf("wait\n");
while (1);
}
我在sig_handler
中捕捉到SIGCHLD
信号,结果不一样:有时所有进程returnOK;有时 1 到 4 个进程变成僵尸。
[vinllen@my-host]$ ./a.out
wait
cnt:1, pid:4383 signal:17
cnt:2, pid:4384 signal:17
cnt:3, pid:4385 signal:17
cnt:4, pid:4386 signal:17
cnt:5, pid:4387 signal:17
…
cnt:94, pid:4476 signal:17
cnt:95, pid:4477 signal:17
cnt:96, pid:4478 signal:17
cnt:97, pid:4479 signal:17
cnt:98, pid:4480 signal:17
[vinllen@my-host ~]$ ps aux | grep a.out
Vinllen 4382 96.2 0.0 13896 1084 pts/8 R+ 15:14 0:03 ./a.out
Vinllen 4481 0.0 0.0 0 0 pts/8 Z+ 15:14 0:00 [a.out] <defunct>
Vinllen 4482 0.0 0.0 0 0 pts/8 Z+ 15:14 0:00 [a.out] <defunct>
Vinllen 4493 0.0 0.0 105300 864 pts/9 S+ 15:14 0:00 grep a.out
我猜原因是不止一个进程同时退出并触发了什么。谁能给我详细的原因并告诉我如何解决这个问题。
在我的理解中,double fork和ignore SIGCHLD是解决这个问题的两种有效方法。但是,如何在这段仍然调用wait
的代码中解决。
信号未排队。如果一个 SIGCHLD 在一个挂起时被引发(可能是当你的代码在 write
系统调用中时),程序将只收到一个通知。
处理这个问题的正确方法是在你的处理程序中循环,直到所有完成的 children 被收割:
void sig_handler(int signo) {
pid_t pid;
int stat;
while ((pid = waitpid(-1, &stat, WNOHANG) > 0)
if (WIFEXITED(stat))
{
// Don't actually do this: you should
// avoid buffered I/O in signal handlers.
std::cout << "count:" << ++cnt
<< ", pid:" << pid
<< " signal:" << signo
<< std::endl;
}
}
如评论中所述,您应该坚持使用信号处理程序中记录的 async-signal-safe functions。缓冲 I/O(包括 std::cout
的使用)可能存在风险,因为信号处理程序可能会在操作其内部结构时被调用。避免问题的最佳方法是限制自己使用 volatile sig_atomic_t
变量与主代码通信。