多 GPU 批量 1D FFT:似乎只有一个 GPU 可以工作

Multi-GPU batched 1D FFTs: only a single GPU seems to work

我在 RHEL 8 上安装了三个 Tesla V100,CUDA 工具包版本为 10.2.89。

我正在尝试计算行主矩阵列的一批一维 FFT。在下面的示例中,矩阵为 16x8,因此对于三个 GPU,我希望 GPU 0 执行前 3 列的 FFT,GPU 1 执行接下来 3 列的 FFT,GPU 2 执行最后 2 列的 FFT .

示例中创建的计划在单个 GPU 上按预期工作,但是当 运行 在三个 GPU 上时,只有前三列被计算(正确),其余部分保持不变。

当我检查由 cufftXtMalloc 填充的描述符时,我看到它已经为 GPU 0 和 1 上的 123 个元素分配了 space,在 GPU 2 上分配了 122 个元素。这看起来很奇怪:我期望 48 =16*3 在 GPU 0 和 1 上,32=16*2 在 GPU 2 上。实际上,这是由 cufftMakePlanMany 填充的工作spaces 的大小。当我检查复制的数据时,元素 0-122 在 GPU 0 的缓冲区中,元素 123-127 在 GPU 1 缓冲区的开头。该缓冲区的其余部分和 GPU 2 上的缓冲区都是垃圾.

此外,当我将行数增加到 1024 时,我在 cufftXtFree 调用上收到 SIGABRT 消息 'free(): corrupted unsorted chunks'。

#include "cufft.h"
#include "cufftXt.h"
#include <vector>
#include <cuComplex.h>
#include <cassert>

#define CUDA_CHECK(x) assert(x == cudaSuccess)
#define CUFFT_CHECK(x) assert(x == CUFFT_SUCCESS)

int main() {
    static const int numGPUs = 3;
    int gpus[numGPUs] = {0, 1, 2};

    int nr = 16;
    int nc = 8;

    // Fill with junk data
    std::vector<cuFloatComplex> h_x(nr * nc);
    for (int i = 0; i < nr * nc; ++i) {
        h_x[i].x = static_cast<float>(i);
    }

    cufftHandle plan;
    CUFFT_CHECK(cufftCreate(&plan));
    CUFFT_CHECK(cufftXtSetGPUs(plan, numGPUs, gpus));

    std::vector<size_t> workSizes(numGPUs);
    int n[] = {nr};

    CUFFT_CHECK(cufftMakePlanMany(plan,
                                  1, // rank
                                  n, // n
                                  n, // inembed
                                  nc, // istride
                                  1, // idist
                                  n, // onembed
                                  nc, // ostride
                                  1, // odist
                                  CUFFT_C2C,
                                  nc,
                                  workSizes.data()));

    cudaLibXtDesc *d_x;
    CUFFT_CHECK(cufftXtMalloc(plan, &d_x, CUFFT_XT_FORMAT_INPLACE));

    CUFFT_CHECK(cufftXtMemcpy(plan, d_x, (void *)h_x.data(), CUFFT_COPY_HOST_TO_DEVICE));

    CUFFT_CHECK(cufftXtExecDescriptorC2C(plan, d_x, d_x, CUFFT_FORWARD));

    std::vector<cuFloatComplex> h_out(nr * nc);
    CUFFT_CHECK(cufftXtMemcpy(plan, (void *)h_out.data(), d_x, CUFFT_COPY_DEVICE_TO_HOST));

    CUFFT_CHECK(cufftXtFree(d_x));
    CUFFT_CHECK(cufftDestroy(plan));

    CUDA_CHECK(cudaDeviceReset());

    return 0;
}

感谢@RobertCrovella 的回答:

自 CUDA 10.2.89 起,根据 the documentation 跨步输入和输出不支持多 GPU 转换。