从大型 malloced 数组读取而不是仅存储时,页面错误的数量是原来的两倍?
Twice as many page faults when reading from a large malloced array instead of just storing?
我正在用下面的代码做一个简单的监控页面错误的测试,我不知道下面一行简单的代码是如何使我的页面错误计数加倍的。
如果我使用
ptr[i+4096] = 'A'
我用 perf 工具得到了 25,722 个页面错误,这是我所期望的,
但是如果我使用
tmp = ptr[i+4096]
相反,页面错误翻了一番,达到 51,322
我不知道如何解释它。下面是完整的代码。谢谢!
void do_something() {
int i;
char* ptr;
char tmp;
ptr = malloc(100*1024*1024);
int j = 0;
int k = 0;
for (i = 0; i < 100*1024*1024; i+=4096) {
//ptr[i+4096] = 'A' ;
tmp = ptr[i+4096];
for (j = 0 ; j < 4096; j++)
ptr[i+j] = (char) (i & 0xff); // pagefault
}
free(ptr);
}
int main(int argc, char* argv[]) {
do_something();
return 0;
}
机器信息:
架构:x86_64
CPU 操作模式:32 位、64 位
字节顺序:小字节序
CPU(s): 40
在线 CPU(s) 名单:0-39
每核心线程数:2
每个插槽的核心数:10
插座:2
NUMA 节点:2
供应商 ID:GenuineIntel
CPU 家庭:6
型号:63
型号名称:Intel(R) Xeon(R) CPU E5-2687W v3 @ 3.10GHz
步进:2
CPU 兆赫:3096.188
BogoMIPS:6197.81
虚拟化:VT-x
一级缓存:32K
一级缓存:32K
二级缓存:256K
三级缓存:25600K
NUMA node0 CPU(s): 0-9,20-29
NUMA node1 CPU(s): 10-19,30-39
3.10.0-514.32.3.el7.x86_64 #1
malloc()
通常会通过向 OS 请求新页面来满足内存请求,例如通过 mmap
。此类页面通常是延迟分配的:直到 第一次访问 .
才会分配实际页面
接下来会发生什么取决于第一次访问的类型:当您首先进行读取时,Linux 将映射到共享的只读 COW 零页以满足它,并且然后,如果您稍后再写,则需要第二次错误来分配私有可写页面。
当你先写的时候,第一步就被跳过了。这是通常的情况,因为代码通常不会从具有未定义内容的新分配内存中读取(至少当您从 malloc
获取它时)。
请注意,以上描述了新分配的页面在 Linux 中的工作方式 - 当您使用 malloc
时,还有另一层:malloc
通常会尝试满足请求阻塞较早释放的进程,而不是不断地请求新的内存。在内存被重新使用的情况下,它通常已经被分页并且上面的内容不适用。当然,对于 1024 MiB 的初始大分配,没有内存可重复使用,因此您可以确定分配器是从 OS.
获取它的
我正在用下面的代码做一个简单的监控页面错误的测试,我不知道下面一行简单的代码是如何使我的页面错误计数加倍的。 如果我使用
ptr[i+4096] = 'A'
我用 perf 工具得到了 25,722 个页面错误,这是我所期望的, 但是如果我使用
tmp = ptr[i+4096]
相反,页面错误翻了一番,达到 51,322 我不知道如何解释它。下面是完整的代码。谢谢!
void do_something() {
int i;
char* ptr;
char tmp;
ptr = malloc(100*1024*1024);
int j = 0;
int k = 0;
for (i = 0; i < 100*1024*1024; i+=4096) {
//ptr[i+4096] = 'A' ;
tmp = ptr[i+4096];
for (j = 0 ; j < 4096; j++)
ptr[i+j] = (char) (i & 0xff); // pagefault
}
free(ptr);
}
int main(int argc, char* argv[]) {
do_something();
return 0;
}
机器信息: 架构:x86_64 CPU 操作模式:32 位、64 位 字节顺序:小字节序 CPU(s): 40 在线 CPU(s) 名单:0-39 每核心线程数:2 每个插槽的核心数:10 插座:2 NUMA 节点:2 供应商 ID:GenuineIntel CPU 家庭:6 型号:63 型号名称:Intel(R) Xeon(R) CPU E5-2687W v3 @ 3.10GHz 步进:2 CPU 兆赫:3096.188 BogoMIPS:6197.81 虚拟化:VT-x 一级缓存:32K 一级缓存:32K 二级缓存:256K 三级缓存:25600K NUMA node0 CPU(s): 0-9,20-29 NUMA node1 CPU(s): 10-19,30-39
3.10.0-514.32.3.el7.x86_64 #1
malloc()
通常会通过向 OS 请求新页面来满足内存请求,例如通过 mmap
。此类页面通常是延迟分配的:直到 第一次访问 .
接下来会发生什么取决于第一次访问的类型:当您首先进行读取时,Linux 将映射到共享的只读 COW 零页以满足它,并且然后,如果您稍后再写,则需要第二次错误来分配私有可写页面。
当你先写的时候,第一步就被跳过了。这是通常的情况,因为代码通常不会从具有未定义内容的新分配内存中读取(至少当您从 malloc
获取它时)。
请注意,以上描述了新分配的页面在 Linux 中的工作方式 - 当您使用 malloc
时,还有另一层:malloc
通常会尝试满足请求阻塞较早释放的进程,而不是不断地请求新的内存。在内存被重新使用的情况下,它通常已经被分页并且上面的内容不适用。当然,对于 1024 MiB 的初始大分配,没有内存可重复使用,因此您可以确定分配器是从 OS.