使用 cuBlas 将矩阵与转置有效相乘
Efficiently multiplying matrix with transpose using cuBlas
在将大型密集矩阵与其转置相乘时,是否有使用 cuBlas 的有效方法?具体来说,是否有任何函数利用结果矩阵是对称的这一事实,因此将乘法次数减少了约 2 倍。
标准的 BLAS API ?syrk
就是您所需要的。
C = alpha * A * A^T + beta * C
对于 cuBlas,API 名称是 cublas<t>syrk
。详情请参考cuBlas文档
http://docs.nvidia.com/cuda/cublas/index.html#cublas-lt-t-gt-syrk
在将大型密集矩阵与其转置相乘时,是否有使用 cuBlas 的有效方法?具体来说,是否有任何函数利用结果矩阵是对称的这一事实,因此将乘法次数减少了约 2 倍。
标准的 BLAS API ?syrk
就是您所需要的。
C = alpha * A * A^T + beta * C
对于 cuBlas,API 名称是 cublas<t>syrk
。详情请参考cuBlas文档
http://docs.nvidia.com/cuda/cublas/index.html#cublas-lt-t-gt-syrk