Cython 调用 MKL 通过 vdMul 在元素乘法上崩溃

Cython calling MKL crashing on elementwise multiplication via vdMul

我不明白为什么从 Python 调用时会崩溃。调用 Intel MKL 的 vdMul 函数 https://software.intel.com/en-us/mkl-developer-reference-c-v-mul 只是一个简单的 Cython 代码。我试过将 MKL 中的每个 DLL 复制到目录中并重写不同的部分,但它一直崩溃,尽管编译正常。发帖在这里,因为我可能对使用 C++ 更有经验的人犯了一个明显的错误。这是 PYX 代码:

import numpy as np
cimport numpy as np
cimport cython
from cython cimport view

cdef extern from "mkl.h" nogil:
    double* vect_mult "vdMul"(int n,
                          double *a, 
                          double *b,
                          double *y) 

@cython.boundscheck(False)
@cython.wraparound(False)
@cython.cdivision(True)
cpdef mult(double[::1] A, double[::1] B, double[:,::1] output):
    cdef int Ashape0=A.shape[0], Bshape0=B.shape[0]
    cdef int N = Ashape0*Bshape0
    with nogil:
        vect_mult(N, &A[0], &B[0], &output[0,0])

#test script
from cyblas import mult
import numpy as np
a=np.random.randn(1000)
b=np.random.randn(1000)
output = np.zeros((a.shape[0],b.shape[0]))
mult(a,b,output)

我不确定,你想做什么。据我理解vdMult的含义:它的结果是一个n维向量out[i]=a[i]*b[i]。所以

  1. 输出应该是一个平面数组,大小为 1000
  2. 通过传递 Ashape0*Bshape0 而不是 min(Ashape0,Bshape0) 你会得到一个分段错误,因为程序试图越界访问数组。

您的代码应如下所示:

cpdef mult(double[::1] A, double[::1] B, double[::1] output):
    cdef int N = A.shape[0]#assuming all vectors have the same size
    with nogil:
        vect_mult(N, &A[0], &B[0], &output[0,0])

编辑: vdMult 执行逐点乘法。我假设您想要做的是计算 out=a*b^t,即 out[i][j]=a[i]*b[j]

所以这是一个普通的矩阵乘法,你可以使用cblas_dgemm。在您的情况下,调用将是 (n - 向量 a 中的元素数,m - b 中的元素数):

cblas_dgemm(CblasRowMajor, CblasNoTrans, CblasNoTrans, 
                n, m, 1, 1.0, A, 1, B, m, 0.0, C, m);