CUDA Zeropadding 3D矩阵
CUDA Zeropadding 3D matrix
我有一个大小为 100x200x800 的整数矩阵,它以 100*200*800 的平面向量形式存储在主机上,即,我有
int* h_data = (int*)malloc(sizeof(int)*100*200*800);
在设备 (GPU) 上,我想用零填充每个维度,以便获得大小为 128x256x1024 的矩阵,分配如下:
int *d_data;
cudaMalloc((void**)&d_data, sizeof(int)*128*256*1024);
获得零填充矩阵的最佳方法是什么?我有两个想法:
- 遍历主机上的各个子矩阵并将它们直接复制到设备上的正确位置。
- 此方法需要多次
cudaMemcpy
调用,因此可能非常慢
- 在设备上,为 100x200x800 矩阵和 128x256x1024 矩阵分配内存,并编写一个将样本复制到正确内存的内核 space
- 这种方法可能要快得多,但需要为设备上的两个矩阵分配内存
有没有类似MATLAB的三维矩阵索引的可能?在 MATLAB 中,我可以简单地执行以下操作:
h_data = rand(100, 200, 800);
d_data = zeros(128, 256, 1024);
d_data(1:100, 1:200, 1:800) = h_data;
或者,如果我使用 cudaMemcpy(d_data, h_data, sizeof(int)*100*200*800, cudaMemcpyHostToDevice);
将数据复制到设备,是否可以就地重新排序数据,这样我就不必为第二个矩阵分配内存,也许可以使用 cudaMemcpy3D
或 cudaMemset3D
?
Is there any possibility for three-dimensional matrix indexing similar to MATLAB?
这可以使用更高级别的库,例如 libtorch。例如,
d_data(1:100, 1:200, 1:800) = h_data
with libtorch 变成类似
d_data.index_put_({Slice(0, 100), Slice(0, 200), Slice(0, 800)}, h_data)
(MATLAB 使用从 1 开始的索引)。
可能还有其他 C++ 库可以执行此操作,但这是我所知道的一个。
另一方面,如果创建一个 0 填充的 3D 数组是您的唯一目标,那么添加对另一个库的依赖可能不值得。这个狭窄的目标可以通过主机上的三重循环或设备上的等效内核来实现。
如您所想,您可以使用cudaMemcpy3D
进行此操作。基本上:
- 正常分配您的设备阵列
- 用
cudaMemset
将其归零
- 使用
cudaMemcpy3D
对从主机源到设备目标阵列的选定子阵列执行从主机到设备的线性内存复制。
cudaMemcpy3D
API 有点巴洛克风格,文档隐晦,并且有一些适合初学者的常见陷阱。基本上,线性内存传输需要一个用于源和目标的倾斜指针,以及一个表示传输大小的范围。令人困惑的部分是参数含义会根据源 and/or 目标内存是 CUDA 数组还是倾斜线性内存而改变。在代码中你会想要这样的东西:
int hw = 100, hh = 200, hd = 800;
size_t hpitch = hw * sizeof(int);
int* h_data = (int*)malloc(hpitch * hh * hd);
int dw = 128, dh = 256, dd = 1024;
size_t dpitch = dw * sizeof(int);
int *d_data;
cudaMalloc((void**)&d_data, dpitch * dh * dd);
cudaMemset(d_data, 0, dpitch * dh * dd);
cudaPitchedPtr src = make_cudaPitchedPtr(h_data, hpitch, hw, hh);
cudaPitchedPtr dst = make_cudaPitchedPtr(d_data, dpitch, dw, dh);
cudaExtent copyext = make_cudaExtent(hpitch, hh, hd);
cudaMemcpy3DParms copyparms = {0};
copyparms.srcPtr = src;
copyparms.dstPtr = dest;
copyparms.extent = copyext;
copyparms.kind = cudaMemcpyHostToDevice;
cudaMemcpy3D(©parms);
[注意:全部在浏览器中完成,从未编译或运行使用风险自负]
我有一个大小为 100x200x800 的整数矩阵,它以 100*200*800 的平面向量形式存储在主机上,即,我有
int* h_data = (int*)malloc(sizeof(int)*100*200*800);
在设备 (GPU) 上,我想用零填充每个维度,以便获得大小为 128x256x1024 的矩阵,分配如下:
int *d_data;
cudaMalloc((void**)&d_data, sizeof(int)*128*256*1024);
获得零填充矩阵的最佳方法是什么?我有两个想法:
- 遍历主机上的各个子矩阵并将它们直接复制到设备上的正确位置。
- 此方法需要多次
cudaMemcpy
调用,因此可能非常慢
- 此方法需要多次
- 在设备上,为 100x200x800 矩阵和 128x256x1024 矩阵分配内存,并编写一个将样本复制到正确内存的内核 space
- 这种方法可能要快得多,但需要为设备上的两个矩阵分配内存
有没有类似MATLAB的三维矩阵索引的可能?在 MATLAB 中,我可以简单地执行以下操作:
h_data = rand(100, 200, 800);
d_data = zeros(128, 256, 1024);
d_data(1:100, 1:200, 1:800) = h_data;
或者,如果我使用 cudaMemcpy(d_data, h_data, sizeof(int)*100*200*800, cudaMemcpyHostToDevice);
将数据复制到设备,是否可以就地重新排序数据,这样我就不必为第二个矩阵分配内存,也许可以使用 cudaMemcpy3D
或 cudaMemset3D
?
Is there any possibility for three-dimensional matrix indexing similar to MATLAB?
这可以使用更高级别的库,例如 libtorch。例如,
d_data(1:100, 1:200, 1:800) = h_data
with libtorch 变成类似
d_data.index_put_({Slice(0, 100), Slice(0, 200), Slice(0, 800)}, h_data)
(MATLAB 使用从 1 开始的索引)。
可能还有其他 C++ 库可以执行此操作,但这是我所知道的一个。
另一方面,如果创建一个 0 填充的 3D 数组是您的唯一目标,那么添加对另一个库的依赖可能不值得。这个狭窄的目标可以通过主机上的三重循环或设备上的等效内核来实现。
如您所想,您可以使用cudaMemcpy3D
进行此操作。基本上:
- 正常分配您的设备阵列
- 用
cudaMemset
将其归零
- 使用
cudaMemcpy3D
对从主机源到设备目标阵列的选定子阵列执行从主机到设备的线性内存复制。
cudaMemcpy3D
API 有点巴洛克风格,文档隐晦,并且有一些适合初学者的常见陷阱。基本上,线性内存传输需要一个用于源和目标的倾斜指针,以及一个表示传输大小的范围。令人困惑的部分是参数含义会根据源 and/or 目标内存是 CUDA 数组还是倾斜线性内存而改变。在代码中你会想要这样的东西:
int hw = 100, hh = 200, hd = 800;
size_t hpitch = hw * sizeof(int);
int* h_data = (int*)malloc(hpitch * hh * hd);
int dw = 128, dh = 256, dd = 1024;
size_t dpitch = dw * sizeof(int);
int *d_data;
cudaMalloc((void**)&d_data, dpitch * dh * dd);
cudaMemset(d_data, 0, dpitch * dh * dd);
cudaPitchedPtr src = make_cudaPitchedPtr(h_data, hpitch, hw, hh);
cudaPitchedPtr dst = make_cudaPitchedPtr(d_data, dpitch, dw, dh);
cudaExtent copyext = make_cudaExtent(hpitch, hh, hd);
cudaMemcpy3DParms copyparms = {0};
copyparms.srcPtr = src;
copyparms.dstPtr = dest;
copyparms.extent = copyext;
copyparms.kind = cudaMemcpyHostToDevice;
cudaMemcpy3D(©parms);
[注意:全部在浏览器中完成,从未编译或运行使用风险自负]