如果我使用 pycuda 将一个数组传递给 GPU 然后打印它,为什么它会打印零?

If I pass an array using pycuda to the GPU and then print it, why does it print zeros?

我正在尝试使用 pycuda 来加速我的神经网络(我知道 tensorflow 更容易用于 GPU 加速,我只是想先手动完成,因为我对神经网络还比较陌生),但是每当我将一个数组传递给 GPU,并让每个线程在 threadIdx 处打印出数组的值,即使我设置了数组值,它也会打印出零。

我试过使用一个非常简单的内核进行测试,它只打印一维数组的值,我试过将数据类型更改为 float32。

我用来测试这个问题的基本内核:

test_mod = SourceModule("""
    __global__ void test(float *a)
    {
        printf("%d: %d\n", threadIdx.x, a[threadIdx.x]);
    }

    """)

我用来创建数组和初始化内核的 python 代码:

a = np.asarray([4,2,1])
a = a.astype(np.float32)
test_module = test_mod.get_function("test")
test_module(cuda.In(a), block=(3, 1, 1))

我希望它打印 4、2 和 1 的顺序,但每个线程都打印 0。

问题出在内核中的打印语句。 %d 格式说明符用于整数。它不会正确格式化浮点值。要修复它,请像这样修改内核:

test_mod = SourceModule("""
    __global__ void test(float *a)
    {
        printf("%d: %f\n", threadIdx.x, a[threadIdx.x]);
    }

    """)

[根据评论收集的答案并添加为社区 wiki 条目,以尝试将问题从 CUDA 标签的未回答队列中删除]。