如何使用 openMP 并行化内部循环?
How can I parallelize the inner loops with openMP?
也许我的问题的解决方案很明显。我想使用 openMP 加速以下代码(进入 Intel Xeon Phi),但我不能。
int c=0, d=0, e=0, i;
#pragma opm parallel for private(c, d, e)
for(i=0; i < columns; i++)
{
if((left_side[rule*columns + i] > 0) || (right_side[rule*columns + i] > 0))
{
for(c=0; c < rows; c++)
{
if(left_side[i + c * columns] > 0)
{
if(flag[c] == 0)
{
r_prob[c] = c_vect[c];
flag[c] = 1;
for(d=0; d < columns; d++)
{
switch(left_side[c * columns + d])
{
case 0:
break;
case 1:
r_prob[c] *= M_in[d] * 1.0;
break;
case 2:
r_prob[c] *= (M_in[d] * (M_in[d] - 1)) * .5;
break;
default:
for(e=1; e <= left_side[c * columns + d]; e++)
r_prob[c] *= M_in[d] * 1.0 / (e * 1.0);
break;
}
}
}
}
}
}
}
//where r_prob, M_in, left_side, right_side, c_vect and flag are array that are in input.
此代码 运行 不正确,r_prob 中的值是错误的。
我如何并行化此代码?
你的代码有一个错误,因为第一个FOR创建了多个线程,并将这些同时写入数组r_prob,flag。解决方案可能是:
int c=0, d=0, e=0, i;
#pragma opm parallel for private(c, d, e)
for(i=0; i < columns; i++)
{
if((left_side[rule*columns + i] > 0) || (right_side[rule*columns + i] > 0))
{
for(c=0; c < rows; c++)
{
if(left_side[i + c * columns] > 0)
{
if(flag[c] == 0)
{
#pragma omp critical //Only one thread at a time can enter
{
r_prob[c] = c_vect[c];
flag[c] = 1;
}
for(d=0; d < columns; d++)
{
switch(left_side[c * columns + d])
{
case 0:
break;
case 1:
#pragma omp critical //Only one thread at a time can enter
{
r_prob[c] *= M_in[d] * 1.0;
}
break;
case 2:
#pragma omp critical //Only one thread at a time can enter
{
r_prob[c] *= (M_in[d] * (M_in[d] - 1)) * .5;
}
break;
default:
for(e=1; e <= left_side[c * columns + d]; e++)
#pragma omp critical //Only one thread at a time can enter
{
r_prob[c] *= M_in[d] * 1.0 / (e * 1.0);
}
break;
}
}
}
}
}
}
}//where r_prob, M_in, left_side, right_side, c_vect and flag are array that are in input.
问题是不同的线程写入和读取同一个 r_prob[c]
变量。使用此算法,您可以仅在 c
上并行化循环。 IE。写:
for(int i=0; i < columns; i++)
{
if((left_side[rule*columns + i] > 0) || (right_side[rule*columns + i] > 0))
{
#pragma omp parallel for
for(int c=0; c < rows; c++){
//....
或者您可以使用语法:
#pragma omp critical
{
r_prob[c] *= ...
}
一次只允许一个线程访问数组的语法。
哪个更快取决于数组的大小和线程数。
正如 Haatschii 所说,最好在 for 循环内声明变量。
也许我的问题的解决方案很明显。我想使用 openMP 加速以下代码(进入 Intel Xeon Phi),但我不能。
int c=0, d=0, e=0, i;
#pragma opm parallel for private(c, d, e)
for(i=0; i < columns; i++)
{
if((left_side[rule*columns + i] > 0) || (right_side[rule*columns + i] > 0))
{
for(c=0; c < rows; c++)
{
if(left_side[i + c * columns] > 0)
{
if(flag[c] == 0)
{
r_prob[c] = c_vect[c];
flag[c] = 1;
for(d=0; d < columns; d++)
{
switch(left_side[c * columns + d])
{
case 0:
break;
case 1:
r_prob[c] *= M_in[d] * 1.0;
break;
case 2:
r_prob[c] *= (M_in[d] * (M_in[d] - 1)) * .5;
break;
default:
for(e=1; e <= left_side[c * columns + d]; e++)
r_prob[c] *= M_in[d] * 1.0 / (e * 1.0);
break;
}
}
}
}
}
}
}
//where r_prob, M_in, left_side, right_side, c_vect and flag are array that are in input.
此代码 运行 不正确,r_prob 中的值是错误的。 我如何并行化此代码?
你的代码有一个错误,因为第一个FOR创建了多个线程,并将这些同时写入数组r_prob,flag。解决方案可能是:
int c=0, d=0, e=0, i;
#pragma opm parallel for private(c, d, e)
for(i=0; i < columns; i++)
{
if((left_side[rule*columns + i] > 0) || (right_side[rule*columns + i] > 0))
{
for(c=0; c < rows; c++)
{
if(left_side[i + c * columns] > 0)
{
if(flag[c] == 0)
{
#pragma omp critical //Only one thread at a time can enter
{
r_prob[c] = c_vect[c];
flag[c] = 1;
}
for(d=0; d < columns; d++)
{
switch(left_side[c * columns + d])
{
case 0:
break;
case 1:
#pragma omp critical //Only one thread at a time can enter
{
r_prob[c] *= M_in[d] * 1.0;
}
break;
case 2:
#pragma omp critical //Only one thread at a time can enter
{
r_prob[c] *= (M_in[d] * (M_in[d] - 1)) * .5;
}
break;
default:
for(e=1; e <= left_side[c * columns + d]; e++)
#pragma omp critical //Only one thread at a time can enter
{
r_prob[c] *= M_in[d] * 1.0 / (e * 1.0);
}
break;
}
}
}
}
}
}
}//where r_prob, M_in, left_side, right_side, c_vect and flag are array that are in input.
问题是不同的线程写入和读取同一个 r_prob[c]
变量。使用此算法,您可以仅在 c
上并行化循环。 IE。写:
for(int i=0; i < columns; i++)
{
if((left_side[rule*columns + i] > 0) || (right_side[rule*columns + i] > 0))
{
#pragma omp parallel for
for(int c=0; c < rows; c++){
//....
或者您可以使用语法:
#pragma omp critical
{
r_prob[c] *= ...
}
一次只允许一个线程访问数组的语法。
哪个更快取决于数组的大小和线程数。
正如 Haatschii 所说,最好在 for 循环内声明变量。