gcc `__thread` 是如何工作的?
How does the gcc `__thread` work?
gcc中的__thread
是如何实现的?它只是 pthread_getspecific
和 pthread_setspecific
的包装器吗?
我的程序使用 posix API 作为 TLS,现在看到我的程序运行时间有 30% 花在 pthread_getspecific
上,我有点失望。我在每个需要资源的函数调用的入口调用它。在内联优化后,编译器似乎没有优化掉 pthread_getspecific
。所以在函数被内联后,代码基本上是一次又一次地搜索正确的 TLS 指针以获得相同的指针返回。
在这种情况下,__thread
会帮助我吗?我知道C11里面有thread_local
,但是我的gcc还不支持。 (但现在我看到我的 gcc 确实支持 _Thread_local
只是不支持宏。)
我知道我可以简单地测试一下看看。但我现在必须去别的地方,我想在尝试进行相当大的重写之前更好地了解某个功能。
gcc 的 __thread
与 C11 的 _Thread_local
具有完全相同的语义。您没有告诉我们您正在为哪个平台编程,因为平台之间的实现细节有所不同。例如,在 x86 Linux 上,gcc 应该将对线程局部变量的访问编译为具有 %fs
段前缀的内存指令,而不是调用 pthread_getspecific
.
最近 GCC, e.g. GCC 5 do support C11 and its thread_local
(if compiling with e.g. gcc -std=c11
). As FUZxxl commented, you could use (instead of C11 thread_local
) the __thread
qualifier supported by older GCC versions. Read about Thread Local Storage.
pthread_getspecific
确实很慢(它在 POSIX 库中,因此不是由 GCC 提供,而是 GNU glibc or musl-libc 提供),因为它涉及函数调用。使用 thread_local
变量很可能会更快。
查看 MUSL's thread/pthread_getspecific.c
file 的源代码
一个实施的例子。阅读 this answer 相关问题。
并且 _thread
和 thread_local
(通常)不会神奇地转换为对 pthread_getspecific
的调用。它们通常涉及一些特定的地址模式 and/or 寄存器(细节是特定于实现的,与 ABI; on Linux, I guess that since x86-64 has more registers & address modes, its implementation of TLS is faster than on i386), with help from the compiler, the linker and the runtime system 有关。相反,pthread_getspecific
的某些实现可能会使用一些内部 thread_local
变量(在 POSIX 线程的实现中)。
作为例子,编译如下代码
#include <pthread.h>
const extern pthread_key_t key;
__thread int data;
int
get_data (void) {
return data;
}
int
get_by_key (void) {
return *(int*) (pthread_getspecific (key));
}
使用 GCC 5.2(在 Debian/Sid 上)和 gcc -m32 -S -O2 -fverbose-asm
为 get_data
使用 TLS 提供以下代码:
.type get_data, @function
get_data:
.LFB3:
.cfi_startproc
movl %gs:data@ntpoff, %eax # data,
ret
.cfi_endproc
和 get_by_key
的以下代码 显式调用 到 pthread_getspecific
:
get_by_key:
.LFB4:
.cfi_startproc
subl , %esp #,
.cfi_def_cfa_offset 28
pushl key # key
.cfi_def_cfa_offset 32
call pthread_getspecific #
movl (%eax), %eax # MEM[(int *)_4], MEM[(int *)_4]
addl , %esp #,
.cfi_def_cfa_offset 4
ret
.cfi_endproc
因此,将 TLS 与 __thread
(或 C11 中的 thread_local
)一起使用可能比使用 pthread_getspecific
更快(避免调用开销)。
请注意 thread_local
是 convenience macro defined in <threads.h>
(C11 标准 header)。
gcc中的__thread
是如何实现的?它只是 pthread_getspecific
和 pthread_setspecific
的包装器吗?
我的程序使用 posix API 作为 TLS,现在看到我的程序运行时间有 30% 花在 pthread_getspecific
上,我有点失望。我在每个需要资源的函数调用的入口调用它。在内联优化后,编译器似乎没有优化掉 pthread_getspecific
。所以在函数被内联后,代码基本上是一次又一次地搜索正确的 TLS 指针以获得相同的指针返回。
在这种情况下,__thread
会帮助我吗?我知道C11里面有thread_local
,但是我的gcc还不支持。 (但现在我看到我的 gcc 确实支持 _Thread_local
只是不支持宏。)
我知道我可以简单地测试一下看看。但我现在必须去别的地方,我想在尝试进行相当大的重写之前更好地了解某个功能。
gcc 的 __thread
与 C11 的 _Thread_local
具有完全相同的语义。您没有告诉我们您正在为哪个平台编程,因为平台之间的实现细节有所不同。例如,在 x86 Linux 上,gcc 应该将对线程局部变量的访问编译为具有 %fs
段前缀的内存指令,而不是调用 pthread_getspecific
.
最近 GCC, e.g. GCC 5 do support C11 and its thread_local
(if compiling with e.g. gcc -std=c11
). As FUZxxl commented, you could use (instead of C11 thread_local
) the __thread
qualifier supported by older GCC versions. Read about Thread Local Storage.
pthread_getspecific
确实很慢(它在 POSIX 库中,因此不是由 GCC 提供,而是 GNU glibc or musl-libc 提供),因为它涉及函数调用。使用 thread_local
变量很可能会更快。
查看 MUSL's thread/pthread_getspecific.c
file 的源代码
一个实施的例子。阅读 this answer 相关问题。
并且 _thread
和 thread_local
(通常)不会神奇地转换为对 pthread_getspecific
的调用。它们通常涉及一些特定的地址模式 and/or 寄存器(细节是特定于实现的,与 ABI; on Linux, I guess that since x86-64 has more registers & address modes, its implementation of TLS is faster than on i386), with help from the compiler, the linker and the runtime system 有关。相反,pthread_getspecific
的某些实现可能会使用一些内部 thread_local
变量(在 POSIX 线程的实现中)。
作为例子,编译如下代码
#include <pthread.h>
const extern pthread_key_t key;
__thread int data;
int
get_data (void) {
return data;
}
int
get_by_key (void) {
return *(int*) (pthread_getspecific (key));
}
使用 GCC 5.2(在 Debian/Sid 上)和 gcc -m32 -S -O2 -fverbose-asm
为 get_data
使用 TLS 提供以下代码:
.type get_data, @function
get_data:
.LFB3:
.cfi_startproc
movl %gs:data@ntpoff, %eax # data,
ret
.cfi_endproc
和 get_by_key
的以下代码 显式调用 到 pthread_getspecific
:
get_by_key:
.LFB4:
.cfi_startproc
subl , %esp #,
.cfi_def_cfa_offset 28
pushl key # key
.cfi_def_cfa_offset 32
call pthread_getspecific #
movl (%eax), %eax # MEM[(int *)_4], MEM[(int *)_4]
addl , %esp #,
.cfi_def_cfa_offset 4
ret
.cfi_endproc
因此,将 TLS 与 __thread
(或 C11 中的 thread_local
)一起使用可能比使用 pthread_getspecific
更快(避免调用开销)。
请注意 thread_local
是 convenience macro defined in <threads.h>
(C11 标准 header)。