如何使用模式从内存中复制字节(YUYV 打包到 YUV420 平面)
How to copy bytes from memory using pattern (YUYV packed to YUV420 planar)
让我们从这个开始:
我有一个 16 字节的内存块,我只需要将偶数字节复制到一个 8 字节的内存块。
我目前的算法是这样的:
unsigned int source_size = 16, destination_size = 8, i;
unsigned char * source = new unsigned char[source_size];
unsigned char * destination = new unsigned char[destination_size];
// fill source
for( i = 0; i < source_size; ++i)
{
source[i] = 0xf + i;
}
// source :
// 0f 10 11 12 13 14 15 16 17 18 19 1a 1b 1c 1d 1e
// copy
for( i = 0; i < destination_size; ++i)
{
destination[i] = source[i * 2];
}
// destination :
// 0f 11 13 15 17 19 1b 1d
这只是一个例子,因为我想知道当我需要每 3 个字节或每 4 个字节而不是偶数字节时,是否有更好的方法来执行此操作。
我知道使用循环我可以实现这个但我需要优化这个...我不完全知道如何使用 SSE 所以我不知道在这种情况下是否可以使用,但是类似memcpy 魔法之类的东西会很棒。
我还考虑过使用宏来摆脱循环,因为源和目标的大小都是恒定的,但这看起来没什么大不了的。
如果我说这是提取YUYV像素格式的YCbCr字节,也许你可以跳出框框。另外我需要强调的是,我这样做是为了摆脱 libswscale。
不幸的是,您不能只使用 memcpy()
个技巧。现代处理器有 64 位寄存器,这是内存传输的最佳大小。现代编译器总是尝试优化 memcpy()
调用以一次进行 64(或 32- 甚至 128-)位传输。
但在您的情况下,您需要 'strange' 24 或 16 位传输。这正是我们拥有 SSE、NEON 和其他处理器扩展的原因。这就是它们被广泛用于视频处理的原因。
因此,在您的情况下,您应该使用 SSE 优化库之一或编写自己的汇编代码来执行此内存传输。
虽然我怀疑编译器和 cpu 已经为这种情况做了很好的工作;如果您真的想要替代方案,请研究一下反转莫顿数的技术。这个问题 How to de-interleave bits (UnMortonizing?) 展示了如何在位上做,但这个想法也可以扩展到字节。
类似(仅示例,这不是生产质量)
// assuming destination is already zero...
For (int i=0; i < destination_size; i += 2) {
long* pS = (long*) &source[ i * 2 ];
long* pD = (long*) &destination[ i ];
long a = *pS &0xff00ff00;
*pD |= *pS | ( *pS << 8 );
}
这是否比您的版本快取决于确切的 cpu 类型和编译器生成的内容。即测试并查看哪个更快,正如其他人所提到的,内存获取瓶颈将掩盖给定的小数组的所有内容。
这个问题可以用SSSE3有效解决:
#include <tmmintrin.h> //SSSE3 and before
...
//source must be 16-byte aligned
unsigned char * source = (unsigned char *)_mm_malloc(source_size, 16);
//destination must be 8-byte aligned (that's natural anyway)
unsigned char * destination = (unsigned char *)_mm_malloc(destination_size, 8);
...
__m128i mask = _mm_set_epi8( //shuffling control mask (constant)
-1, -1, -1, -1, -1, -1, -1, -1, 14, 12, 10, 8, 6, 4, 2, 0
);
__m128i reg = *(const __m128i*)source; //load 16-bit register
__m128i comp = _mm_shuffle_epi8(reg, mask); //do the bytes compaction
_mm_storel_epi64((__m128i*)destination, comp); //store lower 64 bits
生成的程序集 (MSVC2013) 中的转换如下所示:
movdqa xmm0, XMMWORD PTR [rsi]
pshufb xmm0, XMMWORD PTR __xmm@ffffffffffffffff0e0c0a0806040200
movq QWORD PTR [rax], xmm0
这种方法应该很快,尤其是当你做很多这样的转换时。它只花费一条洗牌指令(不算load/store),似乎有1 clock latency and 0.5 clocks throughput。请注意,此方法也可用于其他字节模式。
让我们从这个开始:
我有一个 16 字节的内存块,我只需要将偶数字节复制到一个 8 字节的内存块。
我目前的算法是这样的:
unsigned int source_size = 16, destination_size = 8, i;
unsigned char * source = new unsigned char[source_size];
unsigned char * destination = new unsigned char[destination_size];
// fill source
for( i = 0; i < source_size; ++i)
{
source[i] = 0xf + i;
}
// source :
// 0f 10 11 12 13 14 15 16 17 18 19 1a 1b 1c 1d 1e
// copy
for( i = 0; i < destination_size; ++i)
{
destination[i] = source[i * 2];
}
// destination :
// 0f 11 13 15 17 19 1b 1d
这只是一个例子,因为我想知道当我需要每 3 个字节或每 4 个字节而不是偶数字节时,是否有更好的方法来执行此操作。
我知道使用循环我可以实现这个但我需要优化这个...我不完全知道如何使用 SSE 所以我不知道在这种情况下是否可以使用,但是类似memcpy 魔法之类的东西会很棒。
我还考虑过使用宏来摆脱循环,因为源和目标的大小都是恒定的,但这看起来没什么大不了的。
如果我说这是提取YUYV像素格式的YCbCr字节,也许你可以跳出框框。另外我需要强调的是,我这样做是为了摆脱 libswscale。
不幸的是,您不能只使用 memcpy()
个技巧。现代处理器有 64 位寄存器,这是内存传输的最佳大小。现代编译器总是尝试优化 memcpy()
调用以一次进行 64(或 32- 甚至 128-)位传输。
但在您的情况下,您需要 'strange' 24 或 16 位传输。这正是我们拥有 SSE、NEON 和其他处理器扩展的原因。这就是它们被广泛用于视频处理的原因。
因此,在您的情况下,您应该使用 SSE 优化库之一或编写自己的汇编代码来执行此内存传输。
虽然我怀疑编译器和 cpu 已经为这种情况做了很好的工作;如果您真的想要替代方案,请研究一下反转莫顿数的技术。这个问题 How to de-interleave bits (UnMortonizing?) 展示了如何在位上做,但这个想法也可以扩展到字节。
类似(仅示例,这不是生产质量)
// assuming destination is already zero...
For (int i=0; i < destination_size; i += 2) {
long* pS = (long*) &source[ i * 2 ];
long* pD = (long*) &destination[ i ];
long a = *pS &0xff00ff00;
*pD |= *pS | ( *pS << 8 );
}
这是否比您的版本快取决于确切的 cpu 类型和编译器生成的内容。即测试并查看哪个更快,正如其他人所提到的,内存获取瓶颈将掩盖给定的小数组的所有内容。
这个问题可以用SSSE3有效解决:
#include <tmmintrin.h> //SSSE3 and before
...
//source must be 16-byte aligned
unsigned char * source = (unsigned char *)_mm_malloc(source_size, 16);
//destination must be 8-byte aligned (that's natural anyway)
unsigned char * destination = (unsigned char *)_mm_malloc(destination_size, 8);
...
__m128i mask = _mm_set_epi8( //shuffling control mask (constant)
-1, -1, -1, -1, -1, -1, -1, -1, 14, 12, 10, 8, 6, 4, 2, 0
);
__m128i reg = *(const __m128i*)source; //load 16-bit register
__m128i comp = _mm_shuffle_epi8(reg, mask); //do the bytes compaction
_mm_storel_epi64((__m128i*)destination, comp); //store lower 64 bits
生成的程序集 (MSVC2013) 中的转换如下所示:
movdqa xmm0, XMMWORD PTR [rsi]
pshufb xmm0, XMMWORD PTR __xmm@ffffffffffffffff0e0c0a0806040200
movq QWORD PTR [rax], xmm0
这种方法应该很快,尤其是当你做很多这样的转换时。它只花费一条洗牌指令(不算load/store),似乎有1 clock latency and 0.5 clocks throughput。请注意,此方法也可用于其他字节模式。