此程序的输出 11 从未发生

Question

这次我使用 atomic_fetch_add 。这是我如何获得 ra1=1 和 ra2=1 。两个线程都看到 a.fetch_add(1,memory_order_relaxed);当 a=0 时。写入进入存储缓冲区并且对其他人不可见。他们都有ra=1和ra2=1.

我可以推断出它是如何打印 12,21 和 22 的。

22 由他们在 foo 和 bar 中递增 a 给出，a=2 是 a.load.
类似12是由thread foo completing and thread bar start after给出的线程 foo 存储。
21 由第一个 bar 给出，然后是 foo。

// g++ -O2 -pthread axbx.cpp ; while [ true ]; do ./a.out | grep "11"; done doesn't print 11 within 5 mins
#include<atomic>
#include<thread>
#include<cstdio>
using namespace std;
atomic<long> a,b;
long ra1,ra2;
void foo(){
        a.fetch_add(1,memory_order_relaxed);
        ra1=a.load(memory_order_relaxed);
}
void bar(){
        a.fetch_add(1,memory_order_relaxed);
        ra2=a.load(memory_order_relaxed);
}
int main(){
  thread t[2]{ thread(foo),thread(bar)};
  t[0].join();t[1].join();
  printf("%ld%ld\n",ra1,ra2); // This doesn't print 11 but it should
}

Answer 1

a.fetch_add 是原子的；这就是重点。两个单独的 fetch_adds 无法相互踩踏，只会导致一个增量。

让存储缓冲区中断的实现不是正确的实现，因为 ISO C++ 要求整个 RMW 是一个原子操作，而不是原子加载和单独的原子存储。

（例如，在 x86 上，lock add [a], 1 是一个完全障碍，因为它必须如何实现：确保更新的数据作为执行的一部分在 L1d 缓存中可见。.

在其他一些实现上，例如ARMv8.1 之前的 AArch64，它将编译为 LL/SC 重试循环 ¹，如果此核心在加载之间失去缓存行的独占所有权，Store-Conditional 将失败并存储。）

脚注 1：实际上，如果您省略 -march=armv8.1-a 或 -mcpu=cortex-a76 或其他任何内容，当前 GCC 将调用 libatomic 辅助函数，因此它仍然可以通过运行时 CPU 调度从使用新的单指令原子，如 ldadd w2, w0, [x0] 而不是重试循环，在 ARMv8.1 CPU 上的代码运行的可能情况下。 https://godbolt.org/z/vhePM9h8a)

此程序的输出 11 从未发生

Output 11 for this program never occurs

c++

multithreading

memory-barriers

stdatomic