从"magma_dgeqrf2_gpu"(一般矩阵)的结果中提取上三角矩阵,不传输到主机

Extract upper triangular matrix from the result of "magma_dgeqrf2_gpu" (which is a general matrix) without transferring to host

我正在构建一个内核,其中使用 Magma 函数 magma_dgeqrf2_gpu 来执行 QR 分解。这会将上三角矩阵 R 输出到 GPU 设备上的通用矩阵 d_A。

不将 d_A 传输回主机(因为我需要 GPU 进行进一步操作),是否有一种 lib 方法可以将 d_A 减少或提取到上三角矩阵 R设备?

这有点傻,但我发现解决方案只是使用 magmablas_dlacopy() 并设置属性以将上三角矩阵复制到设备上的另一个矩阵(已设置为 0)。