如何使用这个宏来测试内存是否对齐?
How to use this macro to test if memory is aligned?
我是一个 simd 初学者,我已经阅读了 this 篇关于该主题的文章(因为我使用的是 AVX2 兼容机器)。
现在,我已阅读 this 问题以检查您的指针是否对齐。
我正在用这个玩具示例对其进行测试 main.cpp
:
#include <iostream>
#include <immintrin.h>
#define is_aligned(POINTER, BYTE_COUNT) \
(((uintptr_t)(const void *)(POINTER)) % (BYTE_COUNT) == 0)
int main()
{
float a[8];
for(int i=0; i<8; i++){
a[i]=i;
}
__m256 evens = _mm256_set_ps(2.0, 4.0, 6.0, 8.0, 10.0, 12.0, 14.0, 16.0);
std::cout<<is_aligned(a, 16)<<" "<<is_aligned(&evens, 16)<<std::endl;
std::cout<<is_aligned(a, 32)<<" "<<is_aligned(&evens, 32)<<std::endl;
}
并用icpc -std=c++11 -o main main.cpp
编译它。
打印结果为:
1 1
1 1
但是,如果我在 4 个打印之前添加这 3 行:
for(int i=0; i<8; i++)
std::cout<<a[i]<<" ";
std::cout<<std::endl;
这是结果:
0 1 2 3 4 5 6 7
1 1
0 1
特别是最后那个0
我不明白。为什么和上次打印的不一样?我错过了什么?
您的is_aligned
(这是一个宏,而不是函数)确定对象是否已与特定边界对齐。它不决定对象类型的对齐要求。
编译器将保证 float 数组至少对齐到 float 的对齐要求 - 通常为 4。32 不是 4 的因数,因此不能保证数组是对齐到 32 字节边界。但是,有许多内存地址可以同时被 4 和 32 整除,因此 4 字节边界的内存地址可能恰好也是 32 字节边界。这是您第一次测试中发生的情况,但正如所解释的,不能保证它会发生。在后面的测试中,您添加了一些局部变量,数组最终位于另一个内存位置。碰巧另一个内存位置不在 32 字节边界。
要请求 SIMD 指令可能要求的更严格对齐,您可以使用 alignas
说明符:
alignas(32) float a[8];
我是一个 simd 初学者,我已经阅读了 this 篇关于该主题的文章(因为我使用的是 AVX2 兼容机器)。
现在,我已阅读 this 问题以检查您的指针是否对齐。
我正在用这个玩具示例对其进行测试 main.cpp
:
#include <iostream>
#include <immintrin.h>
#define is_aligned(POINTER, BYTE_COUNT) \
(((uintptr_t)(const void *)(POINTER)) % (BYTE_COUNT) == 0)
int main()
{
float a[8];
for(int i=0; i<8; i++){
a[i]=i;
}
__m256 evens = _mm256_set_ps(2.0, 4.0, 6.0, 8.0, 10.0, 12.0, 14.0, 16.0);
std::cout<<is_aligned(a, 16)<<" "<<is_aligned(&evens, 16)<<std::endl;
std::cout<<is_aligned(a, 32)<<" "<<is_aligned(&evens, 32)<<std::endl;
}
并用icpc -std=c++11 -o main main.cpp
编译它。
打印结果为:
1 1
1 1
但是,如果我在 4 个打印之前添加这 3 行:
for(int i=0; i<8; i++)
std::cout<<a[i]<<" ";
std::cout<<std::endl;
这是结果:
0 1 2 3 4 5 6 7
1 1
0 1
特别是最后那个0
我不明白。为什么和上次打印的不一样?我错过了什么?
您的is_aligned
(这是一个宏,而不是函数)确定对象是否已与特定边界对齐。它不决定对象类型的对齐要求。
编译器将保证 float 数组至少对齐到 float 的对齐要求 - 通常为 4。32 不是 4 的因数,因此不能保证数组是对齐到 32 字节边界。但是,有许多内存地址可以同时被 4 和 32 整除,因此 4 字节边界的内存地址可能恰好也是 32 字节边界。这是您第一次测试中发生的情况,但正如所解释的,不能保证它会发生。在后面的测试中,您添加了一些局部变量,数组最终位于另一个内存位置。碰巧另一个内存位置不在 32 字节边界。
要请求 SIMD 指令可能要求的更严格对齐,您可以使用 alignas
说明符:
alignas(32) float a[8];