使用 cuBlas 将矩阵与转置有效相乘

Efficiently multiplying matrix with transpose using cuBlas

在将大型密集矩阵与其转置相乘时,是否有使用 cuBlas 的有效方法?具体来说,是否有任何函数利用结果矩阵是对称的这一事实,因此将乘法次数减少了约 2 倍。

标准的 BLAS API ?syrk 就是您所需要的。

C = alpha * A * A^T + beta * C

对于 cuBlas,API 名称是 cublas<t>syrk。详情请参考cuBlas文档

http://docs.nvidia.com/cuda/cublas/index.html#cublas-lt-t-gt-syrk