epoll_wait 似乎卡在了 EPOLLRDHUP

epoll_wait seems to get stuck on EPOLLRDHUP

所以我有一些代码如下所示:

for (;;) {
        errno=0;
        epoll_event e = {};
        auto wait_r = epoll_wait(g.epoll_fd, &e, 1, 0);
        if (wait_r==0) break;
        if(wait_r ==-1 && errno==EINTR) {
            printf("got EINTR\n");
            continue;
        }
        assert(wait_r == 1);

        auto& c = *(Context*)e.data.ptr;

        if(e.events & EPOLLERR ) {

            int       error = 0;
            socklen_t errlen = sizeof(error);
            auto r1 =getsockopt(c.socket, SOL_SOCKET, SO_ERROR, (void *)&error, &errlen);
            assert(r1==0);
            printf("Got EPOLLERR 2 %s\n", strerror(error));
        }


        if(e.events & EPOLLRDHUP || e.events & EPOLLHUP ) {
            if (e.events & EPOLLRDHUP) {
                printf("got to EPOLLRDHUP\n");
            }
            if (e.events & EPOLLHUP) {
                printf("got to EPOLLHUP\n");
            }
            //continue; // keeps hitting this for same connections
            break;
        }

        if (e.events & EPOLLIN) {

            // Does a bunch of reads...
        }
    }
}

单个套接字将卡在 EPOLLRDHUP || EPOLLHUP 的情况下。套接字可能已关闭,当我尝试关闭它或执行 EPOLL_CTL_DEL 我得到一个 EBADFD。我的理解是 epoll 会自动清除所有死套接字,但情况似乎并非如此……有什么想法吗?

另一个可能的问题是,在我使用的套接字上 recvmsg/sendmsg 并且我在进程之间通过这些套接字发送文件描述符,这些套接字是 unix 域流套接字。我试图对其进行最终的 recvmsg,但也失败了...有什么想法吗?

对于我的问题,解决方案是像这样更改一行:

c.socket = accept(g.server_socket, NULL, NULL);

对此:

c.socket = accept4(g.server_socket, NULL, NULL, SOCK_CLOEXEC);

如果其他人遇到此问题,请留意 dup()exec() 电话。 dup() 可能导致 epoll 表现得好像它没有关闭,即使您已经关闭了添加到 epoll 的 fd。 epoll 只有在 fd 的所有副本都关闭后才会识别它已关闭。 exec() 基本上会为您拥有的每个 fd 做与 dup() 相同的事情,而不是使用 SOCK_CLOEXEC 标志创建...