Fast/Easy二维图像的CUDA卷积方法?

Fast/Easy apporach to CUDA convolution of 2D image?

新手有耐心解答吗?

(我正在根据回复改写问题。)

我需要对许多 2K x 2K 图像(浮点)进行卷积核(16x16 浮点)。 cuBLAS 或 cuFFT 中是否已经存在一些东西(对于 cuFFT,我假设我必须先将图像和内核转换为傅里叶 space)才能执行此操作? (假设我不能使用 openCV 或 NPP,除非它是复制源代码)。

你会选择哪个选项:

  1. 使用 CuFFT 并将图像和内核转换为傅里叶 space、滤波,然后进行 FFT 逆运算?
  2. 按照 NVIDA SDK 和以下的路线滚动我自己的:https://www.evl.uic.edu/sjames/cs525/final.html
  3. 看看做一个盒子过滤器,并使用积分(求和图像)。

我能够使用 UIUC 学生的论文和 Nvidia 的白皮书来实现该算法。谢谢罗伯特。