是否可以在并行区域中为共享二维数组创建 select 元素的线程本地副本? (共享、私有、屏障:OPenMP)
Can a thread-local copy of select elements be created of a shared 2D array in a parallel region? (Shared, private, barrier: OPenMP)
我有一个包含 n
xn
个元素的二维网格。在一次迭代中,我通过平均相邻元素的值来计算一个元素的值。即:
for(int i=0;i<n;i++)
for(int j=0;j<n;j++)
grid[i][j] = (grid[i-1][j] + grid[i][j-1] + grid[i+1][j] + grid[i][j+1])/4.0;
而且我需要 运行 上面的嵌套循环进行 iter
次迭代。
我需要的是:
- 我需要线程计算这个平均值,等到所有线程都完成计算,然后一次性更新网格。
- 具有
iter
次迭代的循环将按顺序 运行,但是 在 每次迭代期间,每个 [=17] 的 grid[i][j]
的值=]和j
应该并行计算。
为了做到这一点,我有以下想法和问题:
- 也许制作网格 shared 并放置网格的 select 4 个元素的副本,计算
grid[i][j]
所需的网格仅制作这 4 个元素元素 private 给线程。 (基本上网格由所有线程共享,但每个线程中也有 4 iteration-specific 元素的本地副本。)这可能吗?
- 实际上所有线程都需要
barrier
才能完成并开始下一次迭代吗?
我对 OpenMP 的思维方式还很陌生,完全迷失在这个简单的问题中。如果有人能帮助解决我的困惑,我将不胜感激。
在实践中,您希望线程数比网格点数(少得多),因此每个线程将计算一整串点(例如,一行)。启动 OpenMP(或任何其他类型的)线程会产生一定的开销,并且您的程序将受内存限制而不是 CPU 限制。因此,为每个网格点启动一个线程将破坏并行计算的全部目的。因此,不推荐您的想法#1(虽然我不太确定我是否理解正确;也许这不是您的提议)。
我建议(其他人在 OP 评论中也指出)分配两倍的内存来存储网格值,并使用两个在迭代之间交换的指针:一个指向保存前一个的内存只读的迭代值,另一个是只写的新迭代值。请注意,您只会交换指针,而不是实际复制内存。迭代完成后,您可以将最终结果复制到所需位置。
是的,您需要在迭代之间同步线程,但是在 OpenMP 中,这通常是通过在迭代循环中打开一个并行区域来隐式完成的(在并行结束时有一个隐式屏障地区):
for (int iter = 0; iter < niter; ++iter)
{
#pragma omp parallel
{
// get range of points for current thread
// loop over thread's points and apply the stencil
}
}
或者,使用 parallel for
结构:
const int np = n*n;
for (int iter = 0; iter < niter; ++iter)
{
#pragma omp parallel for
for (int ip = 0; ip < np; ++ip)
{
const int i = ip / n;
const int j = ip % n;
// apply the stencil to [i,j]
}
}
第二个版本将在可用线程之间自动平均分配工作,这很可能是您想要的。首先你必须手动完成。
我有一个包含 n
xn
个元素的二维网格。在一次迭代中,我通过平均相邻元素的值来计算一个元素的值。即:
for(int i=0;i<n;i++)
for(int j=0;j<n;j++)
grid[i][j] = (grid[i-1][j] + grid[i][j-1] + grid[i+1][j] + grid[i][j+1])/4.0;
而且我需要 运行 上面的嵌套循环进行 iter
次迭代。
我需要的是:
- 我需要线程计算这个平均值,等到所有线程都完成计算,然后一次性更新网格。
- 具有
iter
次迭代的循环将按顺序 运行,但是 在 每次迭代期间,每个 [=17] 的grid[i][j]
的值=]和j
应该并行计算。
为了做到这一点,我有以下想法和问题:
- 也许制作网格 shared 并放置网格的 select 4 个元素的副本,计算
grid[i][j]
所需的网格仅制作这 4 个元素元素 private 给线程。 (基本上网格由所有线程共享,但每个线程中也有 4 iteration-specific 元素的本地副本。)这可能吗? - 实际上所有线程都需要
barrier
才能完成并开始下一次迭代吗?
我对 OpenMP 的思维方式还很陌生,完全迷失在这个简单的问题中。如果有人能帮助解决我的困惑,我将不胜感激。
在实践中,您希望线程数比网格点数(少得多),因此每个线程将计算一整串点(例如,一行)。启动 OpenMP(或任何其他类型的)线程会产生一定的开销,并且您的程序将受内存限制而不是 CPU 限制。因此,为每个网格点启动一个线程将破坏并行计算的全部目的。因此,不推荐您的想法#1(虽然我不太确定我是否理解正确;也许这不是您的提议)。
我建议(其他人在 OP 评论中也指出)分配两倍的内存来存储网格值,并使用两个在迭代之间交换的指针:一个指向保存前一个的内存只读的迭代值,另一个是只写的新迭代值。请注意,您只会交换指针,而不是实际复制内存。迭代完成后,您可以将最终结果复制到所需位置。
是的,您需要在迭代之间同步线程,但是在 OpenMP 中,这通常是通过在迭代循环中打开一个并行区域来隐式完成的(在并行结束时有一个隐式屏障地区):
for (int iter = 0; iter < niter; ++iter) { #pragma omp parallel { // get range of points for current thread // loop over thread's points and apply the stencil } }
或者,使用
parallel for
结构:const int np = n*n; for (int iter = 0; iter < niter; ++iter) { #pragma omp parallel for for (int ip = 0; ip < np; ++ip) { const int i = ip / n; const int j = ip % n; // apply the stencil to [i,j] } }
第二个版本将在可用线程之间自动平均分配工作,这很可能是您想要的。首先你必须手动完成。