为什么我们甚至需要缓存一致性？

Why do we even need cache coherence?

在像 C 这样的语言中，不同线程对同一内存位置的非同步读写是未定义的行为。但是在 CPU、cache coherence says 中，如果一个核心写入一个内存位置，然后另一个核心读取它，另一个核心必须读取写入的值。

如果下一层只是将其丢弃，为什么处理器需要费心公开内存层次结构的连贯抽象？为什么不直接让缓存变得不连贯，并要求软件在要共享某些内容时发出特殊指令？

C++11 std::mutex 所需的 acquire 和 release 语义（以及其他语言中的等价物，以及 pthread_mutex 等更早的东西）将是非常如果您没有一致的缓存，则实施起来非常昂贵。每次释放锁时，您都必须写回每条脏行，并且每次获取锁时逐出每条干净的行，如果不能指望硬件使您的存储可见，并使您的负载不可见的话从私有缓存中获取陈旧数据。

但是对于高速缓存一致性，acquire and release 只是命令该内核访问其自己的私有高速缓存的问题，该高速缓存是与其他内核的 L1d 高速缓存相同的一致性域的一部分。所以它们是本地操作并且非常便宜，甚至不需要耗尽存储缓冲区。互斥锁的成本只是它需要执行的原子 RMW 操作，当然如果拥有互斥锁的最后一个内核不是这个内核，则缓存未命中。

C11 和 C++11 分别添加了 stdatomic 和 std::atomic，这使得访问共享 _Atomic int 变量的定义明确，所以高级语言不公开这个是不正确的.假设可以在需要显式 flushes/invalidates 以使存储对其他内核可见的机器上实现，但这会非常慢。语言模型假定一致的缓存，不提供明确的范围刷新，而是具有释放操作，使每个较旧的存储对其他线程可见，这些线程执行与释放存储同步的获取负载这个线程。（请参阅 When to use volatile with multi threading? 进行一些讨论，尽管该答案主要是为了揭穿缓存可能具有陈旧数据的误解，但编译器可以“缓存”这一事实使人们感到困惑寄存器中的非原子非易失性值。）

事实上，C++ atomic 上的一些保证实际上被标准描述为向软件公开硬件一致性保证，如“写入-读取一致性”等，以注释结尾：

http://eel.is/c++draft/intro.races#19

[ Note: The four preceding coherence requirements effectively disallow compiler reordering of atomic operations to a single object, even if both operations are relaxed loads. This effectively makes the cache coherence guarantee provided by most hardware available to C++ atomic operations. — end note

（在 C11 和 C++11 之前很久，SMP 内核和一些用户-space 多线程程序是手动滚动原子操作，使用 C11 和 C++11 最终公开的相同硬件支持一种便携的方式。）

此外，正如评论中所指出的，一致性缓存对于 写入同一行的不同部分 其他核心不相互踩踏是必不可少的。

ISO C11 保证 char arr[16] 可以有一个线程写入 arr[0] 而另一个线程写入 arr[1]。如果它们都在同一个缓存行中，并且存在该行的两个冲突的脏副本，则只有一个可以“获胜”并被写回。 C++ memory model and race conditions on char arrays

ISO C 有效地要求 char 与您可以编写的最小单元一样大，而不会干扰周围的字节。在几乎所有机器上（不是早期的 Alpha，也不是一些 DSP），，即使字节存储可能需要额外的周期来提交到 L1d 缓存，而不是一些非 x86 ISA 上的对齐字。

该语言直到 C11 才正式要求这样做，但这只是标准化了“每个人都知道”的唯一明智的选择，即编译器和硬件已经如何工作。

为什么我们甚至需要缓存一致性？

Why do we even need cache coherence?

c

cpu

cpu-architecture

cpu-cache