使用多 GPU 的并行矩阵乘法

Question

我在我的系统中的不同 pci 插槽中安装了两个 GPU (2x Nvidia Quadro 410)。要解决这两个 GPU 上的 Martix 乘法，我如何拆分输入矩阵，使每个 GPU processes/computes 输出矩阵的一部分然后 returns 返回。例如。对于两个矩阵 A，B 每个 10x10 的顺序，然后计算输出矩阵 C= A x B，这样，在 100 个元素（10 x 10）中，50 个元素应该在第一个 GPU 和另一半上计算，即 50 到b 在第二个 GPU 中计算。我正在尝试在 OpenCL 上实现它。但是，欢迎任何算法，这将帮助我想出解决方案。

Answer 1

一般来说，如果您有矩阵 X（大小为 axb，行在前）和 Y（大小为 bxc),

X * Y = vcat(X[0:a/2,0:b] * Y, X[a/2:a,0:b] * Y)

在这个伪代码中，vcat 是垂直连接（将一个矩阵放在彼此的顶部，例如一个 4x3 矩阵与 2x3 矩阵连接将产生一个 6x3 矩阵），: 表示范围和[] 正在编制索引。

vcat 的两个参数都可以在不同的 GPU 上计算，连接可以通过将输出指向输出缓冲区的不同子区域来实现（假设我们有 C 序数组）。 X 的初始分割可以通过使用不同的子区域来类似地实现（因为它是沿着一行分割的）。

使用多 GPU 的并行矩阵乘法

Parallel Matrix Multiplication using multi GPU

hpc

matrix

opencl

matrix-multiplication

multi-gpu