策略 - CUFFT 在许多图像上计算 2D FFT

Question

我在 128 张图像上使用 CUFFT 进行二维 FFT。每张图像的大小为 128 x 128。在 MATLAB 上，执行一个 2D FFT 需要 0.3 毫秒，而对所有 128 张图像执行 FFT 花费的时间几乎是该数量的 128 毫秒。使用 CUFFT，执行以下代码计算一幅图像的 FFT

cudaMalloc( (void**)idata, sizeof(cufftDoubleReal) * 128 * 128 );
cudaMalloc( (void**)odata, sizeof(cufftDoubleComplex) * 128 * 128 );
cudaMemcpy( *idata, in_real, 128 * 128 * sizeof(cufftDoubleReal), 
                                  cudaMemcpyHostToDevice );
cudaMemcpy( *idata, in_complex, 128 * 128 * sizeof(cufftDoubleComples), 
                                  cudaMemcpyHostToDevice );

cufftExecD2Z( plan, idata, odata );
cudaMemcpy( out_complex, *odata, 128 * 128 * sizeof(cufftDoubleComplex), cudaMemcpyDeviceToHost );

在我的机器上大约需要 0.4 毫秒。

我试过对多张图片执行相同的代码，执行时间基本是图片数0.4ms的倍数。我这样做的方式基本上就是把上面的代码多次复制粘贴，当然，对应图片的变量也改了，也就是

// For image1
cudaMalloc( (void**)idata, sizeof(cufftDoubleReal) * 128 * 128 );
cudaMalloc( (void**)odata, sizeof(cufftDoubleComplex) * 128 * 128 );
cudaMemcpy( *idata, in_real, 128 * 128 * sizeof(cufftDoubleReal), 
                                  cudaMemcpyHostToDevice );
cudaMemcpy( *idata, in_complex, 128 * 128 * sizeof(cufftDoubleComples), 
                                  cudaMemcpyHostToDevice );
cufftExecD2Z( plan, idata, odata );
cudaMemcpy( out_complex, *odata, 128 * 128 * sizeof(cufftDoubleComplex), cudaMemcpyDeviceToHost );

// For image 2
cudaMalloc( (void**)idata2, sizeof(cufftDoubleReal) * 128 * 128 );
cudaMalloc( (void**)odata2, sizeof(cufftDoubleComplex) * 128 * 128 );
cudaMemcpy( *idata2, in_real2, 128 * 128 * sizeof(cufftDoubleReal), 
                                  cudaMemcpyHostToDevice );
cudaMemcpy( *idata2, in_complex2, 128 * 128 * sizeof(cufftDoubleComples), 
                                  cudaMemcpyHostToDevice );
cufftExecD2Z( plan, idata2, odata2 );
cudaMemcpy( out_complex, *odata2, 128 * 128 * sizeof(cufftDoubleComplex), cudaMemcpyDeviceToHost );
...
// For image N
...

所以我可以预期，如果我对所有 128 张图像应用 2D FFT，执行时间将与 MATLAB 的执行时间大致相同。

所以我的问题是：我应用执行的方式是否正确？我是否充分利用了 GPU 的并行计算能力？我是否应该修改我执行代码的方式，例如，首先对所有 128 张图像执行 cudaMemcpy 并执行它们的时间，以便重叠一些 CPU 和 GPU 执行？

Answer 1

首先，我建议分析您的代码。您不必分析所有 100 张图像，但可能只分析 2-5 张图像。

根据配置文件数据，您应该比较传输数据所花费的时间与 CUFFT 操作所花费的时间。如果它们大致相等（或者如果您可以直观地看到重叠是有益的），则尝试重叠复制和 (CUFFT) 计算，您将使用 CUDA 流来完成此操作。有很多关于 CUDA 流使用的教程以及 CUDA 标签（包括 CUFFT 标签）上的示例问题，其中讨论了使用流和将流与 CUFFT 结合使用。

另外，但与上述相关，我建议尝试使用 CUFFT 批处理参数将 2-5 个图像变换批处理在一起，看看它是否会净减少 100 个图像的整体处理时间。

您实际上可以将这两种想法结合起来，这意味着您可以分批执行转换，然后使用 copy/compute overlap 使用 CUDA 流将与一批图像关联的复制操作与来自的计算操作重叠上一批。

除此之外，cudaMalloc 操作非常昂贵。最好 而不是 将它们放在性能（计算）循环中，这意味着，如果可能的话，运行它们一次，预先，在您的代码中。最好分配您需要的所有 space（比如 2-3 批图像），然后重新使用 space，而不是为每个图像分配新的 space。

策略 - CUFFT 在许多图像上计算 2D FFT

Strategy - CUFFT computing 2D FFT on many images

matlab

cuda

image

cufft