数组结构、结构数组和内存使用模式
Struct of arrays, arrays of structs and memory usage pattern
我一直在阅读有关 SOA 的资料,我想尝试在我正在构建的系统中实现它。
我正在编写一些简单的 C 结构来做一些测试,但我有点困惑,现在我有 3 个不同的结构用于 vec3
。我将在下面展示它们,然后再详细介绍这个问题。
struct vec3
{
size_t x, y, z;
};
struct vec3_a
{
size_t pos[3];
};
struct vec3_b
{
size_t* x;
size_t* y;
size_t* z;
};
struct vec3 vec3(size_t x, size_t y, size_t z)
{
struct vec3 v;
v.x = x;
v.y = y;
v.z = z;
return v;
}
struct vec3_a vec3_a(size_t x, size_t y, size_t z)
{
struct vec3_a v;
v.pos[0] = x;
v.pos[1] = y;
v.pos[2] = z;
return v;
}
struct vec3_b vec3_b(size_t x, size_t y, size_t z)
{
struct vec3_b v;
v.x = (size_t*)malloc(sizeof(size_t));
v.y = (size_t*)malloc(sizeof(size_t));
v.z = (size_t*)malloc(sizeof(size_t));
*(v.x) = x;
*(v.y) = y;
*(v.z) = z;
return v;
}
这就是三种vec3类型的声明。
struct vec3 v = vec3(10, 20, 30);
struct vec3_a va = vec3_a(10, 20, 30);
struct vec3_b vb = vec3_b(10, 20, 30);
用 printf 打印出地址,我得到如下值:
size of vec3 : 24 bytes
size of vec3a : 24 bytes
size of vec3b : 24 bytes
size of size_t : 8 bytes
size of int : 4 bytes
size of 16 int : 64 bytes
vec3 x:10, y:20, z:30
vec3 x:0x7fff57f8e788, y:0x7fff57f8e790, z:0x7fff57f8e798
vec3a x:10, y:20, z:30
vec3a x:0x7fff57f8e768, y:0x7fff57f8e770, z:0x7fff57f8e778
vec3b x:10, y:20, z:30
vec3b x:0x7fbe514026a0, y:0x7fbe51402678, z:0x7fbe51402690
我做的最后一件事是创建一个包含 10 个结构的数组 vec3_b
并打印出返回这些值的地址。
struct vec3_b vb3[10];
for(int i = 0; i < 10; i++)
{
vb3[i] = vec3_b(i, i*2, i*4);
}
index:0 vec3b x:0x7fbe514031f0, y:0x7fbe51403208, z:0x7fbe51403420
index:1 vec3b x:0x7fbe51403420, y:0x7fbe51403438, z:0x7fbe51403590
index:2 vec3b x:0x7fbe51403590, y:0x7fbe514035a8, z:0x7fbe514035c0
index:3 vec3b x:0x7fbe514035c0, y:0x7fbe514035d8, z:0x7fbe514035f0
index:4 vec3b x:0x7fbe514035f0, y:0x7fbe51403608, z:0x7fbe51403680
index:5 vec3b x:0x7fbe51403680, y:0x7fbe51403698, z:0x7fbe514036b0
index:6 vec3b x:0x7fbe514036b0, y:0x7fbe514036c8, z:0x7fbe514036e0
index:7 vec3b x:0x7fbe514036e0, y:0x7fbe514036f8, z:0x7fbe51403710
index:8 vec3b x:0x7fbe51403710, y:0x7fbe51403728, z:0x7fbe51403740
index:9 vec3b x:0x7fbe51403740, y:0x7fbe51403758, z:0x7fbe51403770
问题:
我的 struct vec3_b
实现是设置数组结构的正确方法吗?
由于 vec_3b
结构有 24 个字节大,我可以在 1 个现代 cpu 的缓存行中容纳 2 加 12 个额外字节?
如果我的 vec3_b
是进行 SoA 设置的正确方法,我在寻址方面遇到了一些问题,我将 10 vec3_b 放在一起。
查看十六进制值及其十进制表示形式,我看不到任何让我相信我的设置不正确的模式。
---------------x-----------------|----------------y-----------------|----------------z-----------------|
0| 0x7fbe514031f0 : 140455383675376 | 0x7fbe51403208 : 140455383675400 | 0x7fbe51403420 : 140455383675936
1| 0x7fbe51403420 : 140455383675936 | 0x7fbe51403438 : 140455383675960 | 0x7fbe51403590 : 140455383676304
2| 0x7fbe51403590 : 140455383676304 | 0x7fbe514035a8 : 140455383676328 | 0x7fbe514035c0 : 140455383676352
我想不出什么时候 vec_3b
会是个好主意。
请注意,您还必须为指针指向的 24 字节数据找到 space,并且它可能不会与结构本身连续,因此您有与 vec3
或 vec_3a
相比,可能只是将有效缓存大小减少了 2 倍。每个 malloc()
都有一个最小尺寸;在 64 位机器上,通常至少为 16 个字节。因此,vec_3b
结构中三个指向值的三个单独分配需要至少 48 个其他字节用于支持数据(加上 24 个用于结构本身)。这不适合单个缓存行;不能保证它被放置为适合 2 个缓存行。
N/A — 该问题基于错误的假设。
1 & 3:不,你的 vec3_b
不是 数组结构设置。
你正在做的是拥有多个结构,每个结构都有一个指向 64 位数据的 64 位指针。
使用数组结构,你可以创建一个结构,它有几个可变大小的数组。
所以第 10 个 x 值将是 mystruct.x[9]
,而不是 mystruct[9].x[0]
。
关键是要连续存储所有 x 值,因此您可以使用 movdqu
/ _mm_loadu_si128
加载多个 x
值。如果您正在使用 SIMD,请选择将支持您需要的值范围的最小元素宽度。与 32 位元素相比,使用 64 位元素会将吞吐量减半。您的代码将一次处理 128b 个元素,如果它们是半角元素,则数量是元素的两倍。
我一直在阅读有关 SOA 的资料,我想尝试在我正在构建的系统中实现它。
我正在编写一些简单的 C 结构来做一些测试,但我有点困惑,现在我有 3 个不同的结构用于 vec3
。我将在下面展示它们,然后再详细介绍这个问题。
struct vec3
{
size_t x, y, z;
};
struct vec3_a
{
size_t pos[3];
};
struct vec3_b
{
size_t* x;
size_t* y;
size_t* z;
};
struct vec3 vec3(size_t x, size_t y, size_t z)
{
struct vec3 v;
v.x = x;
v.y = y;
v.z = z;
return v;
}
struct vec3_a vec3_a(size_t x, size_t y, size_t z)
{
struct vec3_a v;
v.pos[0] = x;
v.pos[1] = y;
v.pos[2] = z;
return v;
}
struct vec3_b vec3_b(size_t x, size_t y, size_t z)
{
struct vec3_b v;
v.x = (size_t*)malloc(sizeof(size_t));
v.y = (size_t*)malloc(sizeof(size_t));
v.z = (size_t*)malloc(sizeof(size_t));
*(v.x) = x;
*(v.y) = y;
*(v.z) = z;
return v;
}
这就是三种vec3类型的声明。
struct vec3 v = vec3(10, 20, 30);
struct vec3_a va = vec3_a(10, 20, 30);
struct vec3_b vb = vec3_b(10, 20, 30);
用 printf 打印出地址,我得到如下值:
size of vec3 : 24 bytes
size of vec3a : 24 bytes
size of vec3b : 24 bytes
size of size_t : 8 bytes
size of int : 4 bytes
size of 16 int : 64 bytes
vec3 x:10, y:20, z:30
vec3 x:0x7fff57f8e788, y:0x7fff57f8e790, z:0x7fff57f8e798
vec3a x:10, y:20, z:30
vec3a x:0x7fff57f8e768, y:0x7fff57f8e770, z:0x7fff57f8e778
vec3b x:10, y:20, z:30
vec3b x:0x7fbe514026a0, y:0x7fbe51402678, z:0x7fbe51402690
我做的最后一件事是创建一个包含 10 个结构的数组 vec3_b
并打印出返回这些值的地址。
struct vec3_b vb3[10];
for(int i = 0; i < 10; i++)
{
vb3[i] = vec3_b(i, i*2, i*4);
}
index:0 vec3b x:0x7fbe514031f0, y:0x7fbe51403208, z:0x7fbe51403420
index:1 vec3b x:0x7fbe51403420, y:0x7fbe51403438, z:0x7fbe51403590
index:2 vec3b x:0x7fbe51403590, y:0x7fbe514035a8, z:0x7fbe514035c0
index:3 vec3b x:0x7fbe514035c0, y:0x7fbe514035d8, z:0x7fbe514035f0
index:4 vec3b x:0x7fbe514035f0, y:0x7fbe51403608, z:0x7fbe51403680
index:5 vec3b x:0x7fbe51403680, y:0x7fbe51403698, z:0x7fbe514036b0
index:6 vec3b x:0x7fbe514036b0, y:0x7fbe514036c8, z:0x7fbe514036e0
index:7 vec3b x:0x7fbe514036e0, y:0x7fbe514036f8, z:0x7fbe51403710
index:8 vec3b x:0x7fbe51403710, y:0x7fbe51403728, z:0x7fbe51403740
index:9 vec3b x:0x7fbe51403740, y:0x7fbe51403758, z:0x7fbe51403770
问题:
我的
struct vec3_b
实现是设置数组结构的正确方法吗?由于
vec_3b
结构有 24 个字节大,我可以在 1 个现代 cpu 的缓存行中容纳 2 加 12 个额外字节?如果我的
vec3_b
是进行 SoA 设置的正确方法,我在寻址方面遇到了一些问题,我将 10 vec3_b 放在一起。
查看十六进制值及其十进制表示形式,我看不到任何让我相信我的设置不正确的模式。
---------------x-----------------|----------------y-----------------|----------------z-----------------|
0| 0x7fbe514031f0 : 140455383675376 | 0x7fbe51403208 : 140455383675400 | 0x7fbe51403420 : 140455383675936
1| 0x7fbe51403420 : 140455383675936 | 0x7fbe51403438 : 140455383675960 | 0x7fbe51403590 : 140455383676304
2| 0x7fbe51403590 : 140455383676304 | 0x7fbe514035a8 : 140455383676328 | 0x7fbe514035c0 : 140455383676352
我想不出什么时候
vec_3b
会是个好主意。请注意,您还必须为指针指向的 24 字节数据找到 space,并且它可能不会与结构本身连续,因此您有与
vec3
或vec_3a
相比,可能只是将有效缓存大小减少了 2 倍。每个malloc()
都有一个最小尺寸;在 64 位机器上,通常至少为 16 个字节。因此,vec_3b
结构中三个指向值的三个单独分配需要至少 48 个其他字节用于支持数据(加上 24 个用于结构本身)。这不适合单个缓存行;不能保证它被放置为适合 2 个缓存行。N/A — 该问题基于错误的假设。
1 & 3:不,你的 vec3_b
不是 数组结构设置。
你正在做的是拥有多个结构,每个结构都有一个指向 64 位数据的 64 位指针。
使用数组结构,你可以创建一个结构,它有几个可变大小的数组。
所以第 10 个 x 值将是 mystruct.x[9]
,而不是 mystruct[9].x[0]
。
关键是要连续存储所有 x 值,因此您可以使用 movdqu
/ _mm_loadu_si128
加载多个 x
值。如果您正在使用 SIMD,请选择将支持您需要的值范围的最小元素宽度。与 32 位元素相比,使用 64 位元素会将吞吐量减半。您的代码将一次处理 128b 个元素,如果它们是半角元素,则数量是元素的两倍。