向量中的 Intrinsics Neon Swap 元素
Intrinsics Neon Swap elements in vector
我想用 Neon Intrinsics 优化此类代码。基本上给定输入
0 1 2 3 4 5 6 7 8
将产生输出,
2 1 0 5 4 3 8 7 6
void func(uint8_t* src, uint8_t* dst, int size){
for (int i = 0; i < size; i++){
dst[0] = src[2];
dst[1] = src[1];
dst[2] = src[0]
dst = dst+3;
src = src+3;
}
}
我能想到的唯一方法就是使用
uint8x8x3_t src = vld3_u8(src);
获取 3 个向量,然后访问 src[2]、src[1]、src[0] 中的每个元素并写入内存。
有人可以帮忙吗?
谢谢。
这在底层指令集中非常简单,因为您要交换 3 元素结构的两个元素,实际上已经拼出了相关指令:
vld3.u8 {d0-d2}, [r0]
vswp d0, d2
vst3.u8 {d0-d2}, [r0]
NEON Programmers Guide 中甚至还有这个确切的示例,因为它是 RGB-BGR 转换,而这正是 NEON 设计的处理类型。
使用内在函数有点棘手,因为 vswp
没有内在函数;你只需要用 C 语言表达它并相信编译器会做正确的事情:
uint8x8x3_t data = vld3_u8(src);
uint8x8_t tmp = data.val[0];
data.val[0] = data.val[2];
data.val[2] = tmp;
vst3_u8(dest, data);
也就是说,由于手头的编译器是 GCC 的各种版本,我没能说服他们中的任何一个真正发出 vswp
- 代码生成从次优到愚蠢不等。 Clang 做得好很多,但仍然没有 vswp
;其他编译器可能更聪明。
我想用 Neon Intrinsics 优化此类代码。基本上给定输入
0 1 2 3 4 5 6 7 8
将产生输出,
2 1 0 5 4 3 8 7 6
void func(uint8_t* src, uint8_t* dst, int size){
for (int i = 0; i < size; i++){
dst[0] = src[2];
dst[1] = src[1];
dst[2] = src[0]
dst = dst+3;
src = src+3;
}
}
我能想到的唯一方法就是使用
uint8x8x3_t src = vld3_u8(src);
获取 3 个向量,然后访问 src[2]、src[1]、src[0] 中的每个元素并写入内存。
有人可以帮忙吗?
谢谢。
这在底层指令集中非常简单,因为您要交换 3 元素结构的两个元素,实际上已经拼出了相关指令:
vld3.u8 {d0-d2}, [r0]
vswp d0, d2
vst3.u8 {d0-d2}, [r0]
NEON Programmers Guide 中甚至还有这个确切的示例,因为它是 RGB-BGR 转换,而这正是 NEON 设计的处理类型。
使用内在函数有点棘手,因为 vswp
没有内在函数;你只需要用 C 语言表达它并相信编译器会做正确的事情:
uint8x8x3_t data = vld3_u8(src);
uint8x8_t tmp = data.val[0];
data.val[0] = data.val[2];
data.val[2] = tmp;
vst3_u8(dest, data);
也就是说,由于手头的编译器是 GCC 的各种版本,我没能说服他们中的任何一个真正发出 vswp
- 代码生成从次优到愚蠢不等。 Clang 做得好很多,但仍然没有 vswp
;其他编译器可能更聪明。