cublas 矩阵乘法不符合预期

cublas matrix multiplication not as expected

我正在尝试用 cublas 替换我的 gpu 块矩阵乘法,但我在 2x2 测试用例中没有得到我期望的结果:

#include "cuda_runtime.h"
#include "cublas_v2.h"
#include "stdio.h"
#include "omp.h"


int main(int argc, char **argv) {

  const int SZ = 2;
  const size_t MB = SZ*SZ*sizeof(float);

  cudaSetDevice(0);

  float *m1, *m2, *m3;
  float *m1_, *m2_, *m3_;

  unsigned int i, j;

  m1 = (float *)malloc(MB);
  m2 = (float *)malloc(MB);
  m3 = (float *)malloc(MB);

  cudaMalloc((float **)&m1_, MB);
  cudaMalloc((float **)&m2_, MB);
  cudaMalloc((float **)&m3_, MB);

  for (i=0; i<SZ*SZ; i++) {
    j = (int) (i==1);
    m1[i] = j;
    j = (int) (i==3);
    m3[i] = j;
    printf("m1[%d]=%f m3[%d]=%f\n",i,m1[i],i,m3[i]);
  }

  cublasHandle_t handle;
  cublasCreate(&handle);

  cublasSetMatrix(SZ,SZ,MB,m1,SZ,m1_,SZ);
  cublasSetMatrix(SZ,SZ,MB,m3,SZ,m3_,SZ);

  float al = 1.0f;
  float bt = 0.0f;

  cublasSgemm(handle,CUBLAS_OP_N,CUBLAS_OP_N,SZ,SZ,SZ,&al,m3_,SZ,m1_,SZ,&bt,m2_,SZ);
  printf("\n%s\n\n", cudaGetErrorString(cudaDeviceSynchronize()));
  cublasGetMatrix(SZ,SZ,MB,m2_,SZ,m2,SZ);

  for (i=0; i<SZ*SZ; i++)
    printf("m2[%d]=%f\n",i,m2[i]);

  free(m1);
  free(m2);
  free(m3);

  cublasDestroy(handle);

  cudaFree(m1_);
  cudaFree(m2_);
  cudaFree(m3_);


  cudaDeviceReset();

  return 0;
}

所以我希望 m2 到 return 以下矩阵:

[0 1
 0 0]

作为

相乘的结果
[0 1
 0 0]

[0 0
 0 1]

我对 m1m3 使用了相反的顺序,因此在检索到 cublas{Set/Get}Matrix 时,应该会为我提供 m2 的正确输出在专栏专业工作。但这里是代码的输出:

m1[0]=0.000000 m3[0]=0.000000
m1[1]=1.000000 m3[1]=0.000000
m1[2]=0.000000 m3[2]=0.000000
m1[3]=0.000000 m3[3]=1.000000

no error

m2[0]=0.000000
m2[1]=0.000000
m2[2]=0.000000
m2[3]=0.000000

我不知道我做错了什么;非常感谢您的意见。

cublasGetMatrix的原型是:

cublasStatus_t cublasGetMatrix(int rows, int cols, int elemSize, 
                        const void *A, int lda, void *B, int ldb);

elemSize 应该是矩阵中一个元素的大小(即 sizeof(float) )。 cublasSetMatrix:

也是一样的
cublasStatus_t cublasSetMatrix(int rows, int cols, int elemSize,
                        const void *A, int lda, void *B, int ldb)