初学者如何使用常量内存(Cuda C)

How to use constant memory for beginners (Cuda C)

我有 3 个常量值 (A,B,C),我想将它们保存在常量内存中;我通过输入以下代码行找到了一种方法:

// CUDA global constants
__constant__ int A;
__constant__ int B;
__constant__ int C;

int main(void)
{

    float pA=1;
    float pB=2;
    float pC=3;
    ...
    cudaMemcpyToSymbol(A, &pA, sizeof(A));
    cudaMemcpyToSymbol(B, &pB, sizeof(B));
    cudaMemcpyToSymbol(C, &pC, sizeof(C));
    ...
}

但是我认为这不是最好的方法,因为如果我有更多的常量,它会变得非常不方便。

这是我的问题:如何复制我上面写的代码行以获得更紧凑的形式?

CUDA中的常量内存是65536字节的专用内存space。它是专用的,因为它具有一些特殊功能,例如缓存和广播。

The constant memory space resides in device memory and is cached in the constant cache mentioned in Compute Capability 1.x and Compute Capability 2.x.

见教派。 5.3.2.设备内存访问和 Sect。 G.4.4.有关更多详细信息,请参阅 CUDA C 编程指南中的常量内存。

因此,您可以像之前那样为一个元素分配常量内存,也可以为一个元素数组分配内存。

__constant__ float c_ABC[3]; // 3 elements of type float (12 bytes)

但是,CUDA 不允许动态分配常量内存。因此,您必须像处理一个元素一样将数据从 CPU 复制到 GPU。

float pABC[] = {1, 2, 3};
...
cudaMemcpyToSymbol(c_ABC, &pABC, 3 * sizeof(float));

您可以在 CPU 中初始化 pABC 例如在循环中或从文件加载数据,然后将数据复制到 GPU 的常量内存中。

请注意,我已将您的示例调整为始终使用浮点数。