访问跨 MMU 页边界的变量

Accessing a variable that crosses a MMU page boundary

我正在学习Windows下的X64汇编语言和最新版的《64位汇编语言的艺术》一书的MASM64。
我对书中的那句话有疑问:

You do have to worry about MMU page organization in memory in one situation. Sometimes it is convenient to access (read) data beyond the end of a data structure in memory. However, if that data structure is aligned with the end of an MMU page, accessing the next page in memory could be problematic. Some pages in memory are inaccessible; the MMU does not allow reading, writing, or execution to occur on that page. Attempting to do so will generate an x86-64 general protection (segmentation) fault and abort the normal execution of your program. If you have a data access that crosses a page boundary, and the next page in memory is inaccessible, this will crash your program. For example, consider a word access to a byte object at the very end of an MMU page, as shown in Figure 3-2.

As a general rule, you should never read data beyond the end of a data structure. If for some reason you need to do so, you should ensure that it is legal to access the next page in memory (alas, there is no instruction on modern x86-64 CPUs to allow this; the only way to be sure that access is legal is to make sure there is valid data after the data structure you are accessing).

所以我的问题是:假设我有那个确切的案例。数据段末尾的字变量。如何防止异常?通过手动填充 00h 单元格?正确地将每个变量与其大小对齐?如果我对齐所有内容,如果最后一个变量是跨越 4k 边界的 qword 会发生什么?如何预防?
MASM 会自动分配另一个顺序数据段来容纳它吗?

可以安全地读取已知包含任何有效字节的页面中的任何位置,例如在具有未对齐 foo: dq 1 的静态存储中。如果有的话,mov rax, [foo].

总是安全的

您的汇编器 + 链接器将确保 .data.rdata.bss 中的所有存储实际上都由 OS 允许您触摸的有效页面支持.


你的书的意思是你可能有一个 3 字节结构的数组,例如 RGB 像素。 x86 没有 3 字节加载,因此使用 mov eax, [rcx] 加载整个像素结构实际上会加载 4 个字节,包括您不关心的 1 个字节。

通常没问题,除非 [rcx+3] 位于未映射的页面中。 (例如,缓冲区的最后一个像素,在页面末尾结束,下一页未映射)。跨入另一个不需要数据的缓存行对性能来说不是很好,因此这是与 movzx eax, word ptr [rcx] / movzx edx, byte ptr [rcx+2]

等 2 或 3 个单独加载的权衡

这在 SIMD 中更常见,您可以在加载它们后在寄存器中一次更多地使用多个元素。像 movdqu xmm0, [rcx] 加载 16 个字节,包括 5 个完整像素和 1 个我们不打算在此向量中处理的另一个像素的字节。

(平面 RGB 没有这个问题,其中所有 R 分量都是连续的。或者一般来说,AoS 与 SoA = 数组结构对 SIMD 有好处。如果你将你的循环展开 3 或其他东西,所以 3x 16 字节向量 = 48 字节覆盖 16x 3 字节像素,如果需要的话可能会做一些洗牌或者如果你需要不同的常量来排列你的不同组件,则有 3 个不同的向量常量结构或像素或其他。)

如果遍历一个数组,你在最后一次迭代中会遇到同样的问题。如果数组大于 1 个 SIMD 向量(XMM 或 YMM),而不是最后 n % 4 元素的标量,您有时可以安排在数组末尾结束的 SIMD 加载,因此它部分重叠与先前的完整向量。 (为了减少分支,保留 1..4 个清理元素而不是 0..3,所以如果 n 是向量宽度的倍数,那么“清理”是另一个完整向量。)这对某些事情很有用就像制作一个 ASCII 字符串的 lower-case 副本:重做任何给定字节的工作很好,而且你没有存储 in-place 所以你甚至没有 store-forwarding 停顿,因为您不会有与以前的商店重叠的负载。对数组求和(需要避免 double-counting)或工作 in-place.

不太容易

另见

这对 strlen 来说是一个挑战,您 不知道 知道您被允许阅读的数据是否延伸到下一页。 (除非您一次只读取 1 个字节,这比使用 SSE2 慢 16 倍。)


AVX-512 通过故障抑制屏蔽了 load/store,因此 k1=0x7F 的 vmovdqu8 xmm0{k1}{z}, [rcx] 将有效地成为 15 字节的负载,即使第 16 个字节(屏蔽为零)扩展到未映射的页面。 AVX vmaskmovps 等也是如此。但是 AMD 上的商店版本很慢。

另见


Attempting to do so will generate an x86-64 general protection (segmentation) fault

实际上是 #PF 访问未映射或 permission-denied 页面的页面错误。但是,是的,同样的区别。