为什么我们甚至需要缓存一致性?
Why do we even need cache coherence?
在像 C 这样的语言中,不同线程对同一内存位置的非同步读写是未定义的行为。但是在 CPU、cache coherence says 中,如果一个核心写入一个内存位置,然后另一个核心读取它,另一个核心必须读取写入的值。
如果下一层只是将其丢弃,为什么处理器需要费心公开内存层次结构的连贯抽象?为什么不直接让缓存变得不连贯,并要求软件在要共享某些内容时发出特殊指令?
C++11 std::mutex
所需的 acquire
和 release
语义(以及其他语言中的等价物,以及 pthread_mutex
等更早的东西)将是 非常 如果您没有一致的缓存,则实施起来非常昂贵。每次释放锁时,您都必须写回每条脏行,并且每次获取锁时逐出每条干净的行,如果不能指望硬件使您的存储可见,并使您的负载不可见的话从私有缓存中获取陈旧数据。
但是对于高速缓存一致性,acquire and release 只是命令该内核访问其自己的私有高速缓存的问题,该高速缓存是与其他内核的 L1d 高速缓存相同的一致性域的一部分。所以它们是本地操作并且非常便宜,甚至不需要耗尽存储缓冲区。互斥锁的成本只是它需要执行的原子 RMW 操作,当然如果拥有互斥锁的最后一个内核不是这个内核,则缓存未命中。
C11 和 C++11 分别添加了 stdatomic 和 std::atomic,这使得访问共享 _Atomic int
变量的定义明确,所以高级语言不公开这个是不正确的.假设可以在需要显式 flushes/invalidates 以使存储对其他内核可见的机器上实现,但这会 非常 慢。语言模型假定一致的缓存,不提供明确的范围刷新,而是具有释放操作,使 每个 较旧的存储对其他线程可见,这些线程执行与释放存储同步的获取负载这个线程。 (请参阅 When to use volatile with multi threading? 进行一些讨论,尽管该答案主要是为了揭穿缓存 可能 具有陈旧数据的误解,但编译器可以“缓存”这一事实使人们感到困惑寄存器中的非原子非易失性值。)
事实上,C++ atomic 上的一些保证实际上被标准描述为向软件公开硬件一致性保证,如“写入-读取一致性”等,以注释结尾:
http://eel.is/c++draft/intro.races#19
[ Note: The four preceding coherence requirements effectively disallow compiler reordering of atomic operations to a single object, even if both operations are relaxed loads. This effectively makes the cache coherence guarantee provided by most hardware available to C++ atomic operations. — end note
(在 C11 和 C++11 之前很久,SMP 内核和一些用户-space 多线程程序是手动滚动原子操作,使用 C11 和 C++11 最终公开的相同硬件支持一种便携的方式。)
此外,正如评论中所指出的,一致性缓存对于 写入同一行的不同部分 其他核心不相互踩踏是必不可少的。
ISO C11 保证 char arr[16]
可以有一个线程写入 arr[0]
而另一个线程写入 arr[1]
。如果它们都在同一个缓存行中,并且存在该行的两个冲突的脏副本,则只有一个可以“获胜”并被写回。 C++ memory model and race conditions on char arrays
ISO C 有效地要求 char
与您可以编写的最小单元一样大,而不会干扰周围的字节。在几乎所有机器上(不是早期的 Alpha,也不是一些 DSP),,即使字节存储可能需要额外的周期来提交到 L1d 缓存,而不是一些非 x86 ISA 上的对齐字。
该语言直到 C11 才正式要求这样做,但这只是标准化了“每个人都知道”的唯一明智的选择,即编译器和硬件已经如何工作。
在像 C 这样的语言中,不同线程对同一内存位置的非同步读写是未定义的行为。但是在 CPU、cache coherence says 中,如果一个核心写入一个内存位置,然后另一个核心读取它,另一个核心必须读取写入的值。
如果下一层只是将其丢弃,为什么处理器需要费心公开内存层次结构的连贯抽象?为什么不直接让缓存变得不连贯,并要求软件在要共享某些内容时发出特殊指令?
C++11 std::mutex
所需的 acquire
和 release
语义(以及其他语言中的等价物,以及 pthread_mutex
等更早的东西)将是 非常 如果您没有一致的缓存,则实施起来非常昂贵。每次释放锁时,您都必须写回每条脏行,并且每次获取锁时逐出每条干净的行,如果不能指望硬件使您的存储可见,并使您的负载不可见的话从私有缓存中获取陈旧数据。
但是对于高速缓存一致性,acquire and release 只是命令该内核访问其自己的私有高速缓存的问题,该高速缓存是与其他内核的 L1d 高速缓存相同的一致性域的一部分。所以它们是本地操作并且非常便宜,甚至不需要耗尽存储缓冲区。互斥锁的成本只是它需要执行的原子 RMW 操作,当然如果拥有互斥锁的最后一个内核不是这个内核,则缓存未命中。
C11 和 C++11 分别添加了 stdatomic 和 std::atomic,这使得访问共享 _Atomic int
变量的定义明确,所以高级语言不公开这个是不正确的.假设可以在需要显式 flushes/invalidates 以使存储对其他内核可见的机器上实现,但这会 非常 慢。语言模型假定一致的缓存,不提供明确的范围刷新,而是具有释放操作,使 每个 较旧的存储对其他线程可见,这些线程执行与释放存储同步的获取负载这个线程。 (请参阅 When to use volatile with multi threading? 进行一些讨论,尽管该答案主要是为了揭穿缓存 可能 具有陈旧数据的误解,但编译器可以“缓存”这一事实使人们感到困惑寄存器中的非原子非易失性值。)
事实上,C++ atomic 上的一些保证实际上被标准描述为向软件公开硬件一致性保证,如“写入-读取一致性”等,以注释结尾:
http://eel.is/c++draft/intro.races#19
[ Note: The four preceding coherence requirements effectively disallow compiler reordering of atomic operations to a single object, even if both operations are relaxed loads. This effectively makes the cache coherence guarantee provided by most hardware available to C++ atomic operations. — end note
(在 C11 和 C++11 之前很久,SMP 内核和一些用户-space 多线程程序是手动滚动原子操作,使用 C11 和 C++11 最终公开的相同硬件支持一种便携的方式。)
此外,正如评论中所指出的,一致性缓存对于 写入同一行的不同部分 其他核心不相互踩踏是必不可少的。
ISO C11 保证 char arr[16]
可以有一个线程写入 arr[0]
而另一个线程写入 arr[1]
。如果它们都在同一个缓存行中,并且存在该行的两个冲突的脏副本,则只有一个可以“获胜”并被写回。 C++ memory model and race conditions on char arrays
ISO C 有效地要求 char
与您可以编写的最小单元一样大,而不会干扰周围的字节。在几乎所有机器上(不是早期的 Alpha,也不是一些 DSP),
该语言直到 C11 才正式要求这样做,但这只是标准化了“每个人都知道”的唯一明智的选择,即编译器和硬件已经如何工作。