【发布时间】:2011-11-14 21:37:41
【问题描述】:
我遇到了 Linux futex 系统调用(FUTEX_WAIT 操作)的问题,有时看似无故提前返回。文档指定了可能导致它提前返回的某些条件(没有FUTEX_WAKE),但这些都涉及非零返回值:EAGAIN 如果 futex 地址处的值不匹配,ETIMEDOUT 用于定时等待超时,EINTR 被(非重新启动)信号等中断时。但我看到返回值为 0。除了FUTEX_WAKE 或终止其set_tid_address 指针指向futex,可能导致FUTEX_WAIT 返回值为0?
如果有用,我正在等待的特定 futex 是线程 tid 地址(由clone 系统调用和CLONE_CHILD_CLEARTID 设置),并且线程未终止。我的(显然是不正确的)假设 FUTEX_WAIT 操作返回 0 只能在线程终止导致程序逻辑中的严重错误时发生,我已经通过循环和重试来修复它,即使它返回 0,但现在我很好奇为什么会这样。
这是一个最小的测试用例:
#define _GNU_SOURCE
#include <sched.h>
#include <sys/syscall.h>
#include <unistd.h>
#include <linux/futex.h>
#include <signal.h>
static char stack[32768];
static int tid;
static int foo(void *p)
{
syscall(SYS_getpid);
syscall(SYS_getpid);
syscall(SYS_exit, 0);
}
int main()
{
int pid = getpid();
for (;;) {
int x = clone(foo, stack+sizeof stack,
CLONE_VM|CLONE_FS|CLONE_FILES|CLONE_SIGHAND
|CLONE_THREAD|CLONE_SYSVSEM //|CLONE_SETTLS
|CLONE_PARENT_SETTID|CLONE_CHILD_CLEARTID
|CLONE_DETACHED,
0, &tid, 0, &tid);
syscall(SYS_futex, &tid, FUTEX_WAIT, x, 0);
/* Should fail... */
syscall(SYS_tgkill, pid, tid, SIGKILL);
}
}
让它运行一段时间,它最终应该以Killed (SIGKILL) 终止,这只有在FUTEX_WAIT 返回时线程仍然存在时才有可能。
在任何人假设这只是内核在完成销毁线程之前唤醒 futex(这实际上可能发生在我的最小测试案例中)之前,请注意,在我的原始代码中,我实际上观察到用户空间代码正在运行在FUTEX_WAIT 返回之后的线程中。
【问题讨论】:
-
我想我们可能需要看一个最小的例子;很难提出实质性的建议,因为很多东西都是未知的(无论如何我都会将我的一个预感作为临时答案发布,因为它对于评论来说太大了)
-
确实,我会看看我是否可以整理一个最小的例子。
-
嗯,我认为手册页很不清楚。
FUTEX_WAIT返回值下的条件将非零条件限定为 error 条件,而不仅仅是诊断。然后它说“如果发生错误,所有操作都返回 -1,并设置 errno 以指示错误。”另一方面,这里的条件不会在 ERRORS 部分中重复。 -
我刚刚与
strace确认,当FUTEX_WAIT返回时,“子线程”尚未调用_exit。 -
这可能值得在 linux 内核邮件列表中询问。