SSE2 向量上的 OpenMP 缩减
OpenMP reduction on SSE2 vector
我想使用 SSE2 内在函数为每个通道计算图像的平均值(3 个感兴趣的通道 + 1 个我们在这里忽略的 alpha 通道)。我试过了:
__m128 average = _mm_setzero_ps();
#pragma omp parallel for reduction(+:average)
for(size_t k = 0; k < roi_out->height * roi_out->width * ch; k += ch)
{
float *in = ((float *)temp) + k;
average += _mm_load_ps(in);
}
但我在使用 GCC 时遇到此错误:user-defined reduction not found for average
。
SSE2 可以吗?怎么了?
编辑
这个有效:
float sum[4] = { 0.0f };
#pragma omp parallel for simd reduction(+:sum[:4])
for(size_t k = 0; k < roi_out->height * roi_out->width * ch; k += ch)
{
float *in = ((float *)temp) + k;
for (int i = 0; i < ch; ++i) sum[i] += in[i];
}
const __m128 average = _mm_load_ps(sum) / ((float)roi_out->height * roi_out->width);
您可以像这样自定义缩减:
#pragma omp declare reduction \
(addps:__m128:omp_out+=omp_in) \
initializer(omp_priv=_mm_setzero_ps())
然后像这样使用它:
#pragma omp parallel for reduction(addps:average)
for(size_t k = 0; k < size * ch; k += ch)
{
average += _mm_loadu_ps(data+k);
}
我认为,最重要的是,openmp 需要知道如何获取中性元素(此处 _mm_setzero_ps()
)以供您减少。
完整的工作示例:https://godbolt.org/z/Fpqttc
有趣link:http://pages.tacc.utexas.edu/~eijkhout/pcse/html/omp-reduction.html#User-definedreductions
我想使用 SSE2 内在函数为每个通道计算图像的平均值(3 个感兴趣的通道 + 1 个我们在这里忽略的 alpha 通道)。我试过了:
__m128 average = _mm_setzero_ps();
#pragma omp parallel for reduction(+:average)
for(size_t k = 0; k < roi_out->height * roi_out->width * ch; k += ch)
{
float *in = ((float *)temp) + k;
average += _mm_load_ps(in);
}
但我在使用 GCC 时遇到此错误:user-defined reduction not found for average
。
SSE2 可以吗?怎么了?
编辑
这个有效:
float sum[4] = { 0.0f };
#pragma omp parallel for simd reduction(+:sum[:4])
for(size_t k = 0; k < roi_out->height * roi_out->width * ch; k += ch)
{
float *in = ((float *)temp) + k;
for (int i = 0; i < ch; ++i) sum[i] += in[i];
}
const __m128 average = _mm_load_ps(sum) / ((float)roi_out->height * roi_out->width);
您可以像这样自定义缩减:
#pragma omp declare reduction \
(addps:__m128:omp_out+=omp_in) \
initializer(omp_priv=_mm_setzero_ps())
然后像这样使用它:
#pragma omp parallel for reduction(addps:average)
for(size_t k = 0; k < size * ch; k += ch)
{
average += _mm_loadu_ps(data+k);
}
我认为,最重要的是,openmp 需要知道如何获取中性元素(此处 _mm_setzero_ps()
)以供您减少。
完整的工作示例:https://godbolt.org/z/Fpqttc
有趣link:http://pages.tacc.utexas.edu/~eijkhout/pcse/html/omp-reduction.html#User-definedreductions