使用加速框架,没有观察到的加速
Accelerate framework used, no observable speedup
我有以下一段音频代码,我认为它很适合在加速框架中使用 vDSP。
// --- get pointers for buffer lists
float* left = (float*)audio->mBuffers[0].mData;
float* right = numChans == 2 ? (float*)audio->mBuffers[1].mData : NULL;
float dLeftAccum = 0.0;
float dRightAccum = 0.0;
float fMix = 0.25; // -12dB HR per note
// --- the frame processing loop
for(UInt32 frame=0; frame<inNumberFrames; ++frame)
{
// --- zero out for each trip through loop
dLeftAccum = 0.0;
dRightAccum = 0.0;
float dLeft = 0.0;
float dRight = 0.0;
// --- synthesize and accumulate each note's sample
for(int i=0; i<MAX_VOICES; i++)
{
// --- render
if(m_pVoiceArray[i])
m_pVoiceArray[i]->doVoice(dLeft, dRight);
// --- accumulate and scale
dLeftAccum += fMix*(float)dLeft;
dRightAccum += fMix*(float)dRight;
}
// --- accumulate in output buffers
// --- mono
left[frame] = (float)dLeftAccum;
// --- stereo
if(right) right[frame] = (float)dRightAccum;
}
// needed???
// mAbsoluteSampleFrame += inNumberFrames;
return noErr;
因此我将其修改为使用 vDSP,在帧块的末尾乘以 fMix。
// --- the frame processing loop
for(UInt32 frame=0; frame<inNumberFrames; ++frame)
{
// --- zero out for each trip through loop
dLeftAccum = 0.0;
dRightAccum = 0.0;
float dLeft = 0.0;
float dRight = 0.0;
// --- synthesize and accumulate each note's sample
for(int i=0; i<MAX_VOICES; i++)
{
// --- render
if(m_pVoiceArray[i])
m_pVoiceArray[i]->doVoice(dLeft, dRight);
// --- accumulate and scale
dLeftAccum += (float)dLeft;
dRightAccum += (float)dRight;
}
// --- accumulate in output buffers
// --- mono
left[frame] = (float)dLeftAccum;
// --- stereo
if(right) right[frame] = (float)dRightAccum;
}
vDSP_vsmul(left, 1, &fMix, left, 1, inNumberFrames);
vDSP_vsmul(right, 1, &fMix, right, 1, inNumberFrames);
// needed???
// mAbsoluteSampleFrame += inNumberFrames;
return noErr;
然而,我的 CPU 用法仍然保持不变。
我看不出在这里使用 vDSP 有什么明显的好处。
我这样做正确吗?非常感谢。
向量运算还是个新手,放轻松:)
如果有一些明显的优化我应该做(在加速框架之外),请随时向我指出,谢谢!
您的向量调用正在以音频采样率对每个样本执行 2 次乘法运算。如果您的采样率为 192kHz,那么您只是在谈论每秒 384000 次乘法运算——实际上不足以在现代 CPU 上注册。此外,您正在移动 现有的倍数到另一个地方。如果您查看生成的程序集,我猜想编译器相当不错地优化了您的原始代码,并且 vDSP 调用中的任何加速都会被您需要第二个循环这一事实所抵消。
另一个需要注意的重要事项是,当向量数据在 16 字节边界上对齐时,所有 vDSP 函数都会更好地工作。如果您查看 SSE2 指令集(我相信 vDSP 大量使用它),您会发现许多指令都有一个用于对齐数据的版本和另一个用于未对齐数据的版本。
在 gcc 中对齐数据的方式是这样的:
float inVector[8] = {1, 2, 3, 4, 5, 6, 7, 8} __attribute__ ((aligned(16)));
或者,如果您在堆上进行分配,请查看 aligned_malloc
是否可用。
我有以下一段音频代码,我认为它很适合在加速框架中使用 vDSP。
// --- get pointers for buffer lists
float* left = (float*)audio->mBuffers[0].mData;
float* right = numChans == 2 ? (float*)audio->mBuffers[1].mData : NULL;
float dLeftAccum = 0.0;
float dRightAccum = 0.0;
float fMix = 0.25; // -12dB HR per note
// --- the frame processing loop
for(UInt32 frame=0; frame<inNumberFrames; ++frame)
{
// --- zero out for each trip through loop
dLeftAccum = 0.0;
dRightAccum = 0.0;
float dLeft = 0.0;
float dRight = 0.0;
// --- synthesize and accumulate each note's sample
for(int i=0; i<MAX_VOICES; i++)
{
// --- render
if(m_pVoiceArray[i])
m_pVoiceArray[i]->doVoice(dLeft, dRight);
// --- accumulate and scale
dLeftAccum += fMix*(float)dLeft;
dRightAccum += fMix*(float)dRight;
}
// --- accumulate in output buffers
// --- mono
left[frame] = (float)dLeftAccum;
// --- stereo
if(right) right[frame] = (float)dRightAccum;
}
// needed???
// mAbsoluteSampleFrame += inNumberFrames;
return noErr;
因此我将其修改为使用 vDSP,在帧块的末尾乘以 fMix。
// --- the frame processing loop
for(UInt32 frame=0; frame<inNumberFrames; ++frame)
{
// --- zero out for each trip through loop
dLeftAccum = 0.0;
dRightAccum = 0.0;
float dLeft = 0.0;
float dRight = 0.0;
// --- synthesize and accumulate each note's sample
for(int i=0; i<MAX_VOICES; i++)
{
// --- render
if(m_pVoiceArray[i])
m_pVoiceArray[i]->doVoice(dLeft, dRight);
// --- accumulate and scale
dLeftAccum += (float)dLeft;
dRightAccum += (float)dRight;
}
// --- accumulate in output buffers
// --- mono
left[frame] = (float)dLeftAccum;
// --- stereo
if(right) right[frame] = (float)dRightAccum;
}
vDSP_vsmul(left, 1, &fMix, left, 1, inNumberFrames);
vDSP_vsmul(right, 1, &fMix, right, 1, inNumberFrames);
// needed???
// mAbsoluteSampleFrame += inNumberFrames;
return noErr;
然而,我的 CPU 用法仍然保持不变。 我看不出在这里使用 vDSP 有什么明显的好处。 我这样做正确吗?非常感谢。
向量运算还是个新手,放轻松:)
如果有一些明显的优化我应该做(在加速框架之外),请随时向我指出,谢谢!
您的向量调用正在以音频采样率对每个样本执行 2 次乘法运算。如果您的采样率为 192kHz,那么您只是在谈论每秒 384000 次乘法运算——实际上不足以在现代 CPU 上注册。此外,您正在移动 现有的倍数到另一个地方。如果您查看生成的程序集,我猜想编译器相当不错地优化了您的原始代码,并且 vDSP 调用中的任何加速都会被您需要第二个循环这一事实所抵消。
另一个需要注意的重要事项是,当向量数据在 16 字节边界上对齐时,所有 vDSP 函数都会更好地工作。如果您查看 SSE2 指令集(我相信 vDSP 大量使用它),您会发现许多指令都有一个用于对齐数据的版本和另一个用于未对齐数据的版本。
在 gcc 中对齐数据的方式是这样的:
float inVector[8] = {1, 2, 3, 4, 5, 6, 7, 8} __attribute__ ((aligned(16)));
或者,如果您在堆上进行分配,请查看 aligned_malloc
是否可用。