点积稀疏矩阵
Dot product sparse matrices
我在 python 中有两个稀疏矩阵(a
和 b
),维度如下:
a = <240760x2177930 sparse matrix of type '<class 'numpy.float64'>'
with 1127853 stored elements in Compressed Sparse Row format>
和
b = <240760x2177930 sparse matrix of type '<class 'numpy.float64'>'
with 439309 stored elements in Compressed Sparse Row format>
问题:我想得到一个长度为240760的列向量,它是两个矩阵的逐行点积。例如,dot(a[0],b[0])
将是我的输出向量的第一个元素。 dot(a[1],b[1])
将是第二个,依此类推。
是否有矢量化的简单方法来完成此操作?
编辑: 实现此目的的一种方法是将每一行转换为密集向量,将其展平,然后使用 numpy.dot()
。类似于:
np.dot(np.array(a[0]).flatten(),np.array(b[0]).flatten()).
但这需要逐行迭代并将每一行转换为密集向量,这非常耗时。我在想可能有更简单的方法来做到这一点...
scipy
稀疏矩阵是在 numpy
矩阵子类上建模的,因此实现了 *
作为矩阵乘法。 a.multiply
是逐个元素的乘积,例如 np.array
*
.
使用的
我建议制作几个小矩阵,并尝试各种形式的乘法,包括您认为的 np.dot
等效形式。小东西会更容易分辨是怎么回事。
a = np.arange(12).reshape(3,4)
a1 = sparse.csr_matrix(a)
np.dot(a, a.T)
a1 * a.T
a*a
a1.multiply(a1)
etc
仅供参考,这是你想要的吗(使用密集数组):
In [7]: a=np.arange(12).reshape(3,4)
In [8]: [np.dot(a[i],a[i]) for i in range(3)]
Out[8]: [14, 126, 366]
In [9]: np.einsum('ij,ij->i',a,a)
Out[9]: array([ 14, 126, 366])
和稀疏
In [11]: a1=sparse.csr_matrix(a)
完整的矩阵或点积比你想要的更多,对吧?你只想要对角线。
In [15]: (a1*a1.T).A
Out[15]:
array([[ 14, 38, 62],
[ 38, 126, 214],
[ 62, 214, 366]], dtype=int32)
In [16]: a.dot(a.T)
Out[16]:
array([[ 14, 38, 62],
[ 38, 126, 214],
[ 62, 214, 366]])
In [21]: (a1*a1.T).diagonal()
Out[21]: array([ 14, 126, 366], dtype=int32)
对于非常稀疏的东西,先进行全矩阵乘法再进行对角线运算可能与任何替代方法一样快。遍历稀疏矩阵的行是一个相对较慢的操作,而矩阵乘法已经用快速的 c 代码实现了。
另一种方式 - 元素乘法后求和。
In [22]: np.sum(a*a,axis=1)
Out[22]: array([ 14, 126, 366])
In [23]: a1.multiply(a1).sum(axis=1)
Out[23]:
matrix([[ 14],
[126],
[366]], dtype=int32)
稀疏实现 sum
作为矩阵乘法(乘以一列)。
In [26]: a1.multiply(a1)*np.array([1,1,1,1])[:,None]
Out[26]:
array([[ 14],
[126],
[366]], dtype=int32)
我在 python 中有两个稀疏矩阵(a
和 b
),维度如下:
a = <240760x2177930 sparse matrix of type '<class 'numpy.float64'>'
with 1127853 stored elements in Compressed Sparse Row format>
和
b = <240760x2177930 sparse matrix of type '<class 'numpy.float64'>'
with 439309 stored elements in Compressed Sparse Row format>
问题:我想得到一个长度为240760的列向量,它是两个矩阵的逐行点积。例如,dot(a[0],b[0])
将是我的输出向量的第一个元素。 dot(a[1],b[1])
将是第二个,依此类推。
是否有矢量化的简单方法来完成此操作?
编辑: 实现此目的的一种方法是将每一行转换为密集向量,将其展平,然后使用 numpy.dot()
。类似于:
np.dot(np.array(a[0]).flatten(),np.array(b[0]).flatten()).
但这需要逐行迭代并将每一行转换为密集向量,这非常耗时。我在想可能有更简单的方法来做到这一点...
scipy
稀疏矩阵是在 numpy
矩阵子类上建模的,因此实现了 *
作为矩阵乘法。 a.multiply
是逐个元素的乘积,例如 np.array
*
.
我建议制作几个小矩阵,并尝试各种形式的乘法,包括您认为的 np.dot
等效形式。小东西会更容易分辨是怎么回事。
a = np.arange(12).reshape(3,4)
a1 = sparse.csr_matrix(a)
np.dot(a, a.T)
a1 * a.T
a*a
a1.multiply(a1)
etc
仅供参考,这是你想要的吗(使用密集数组):
In [7]: a=np.arange(12).reshape(3,4)
In [8]: [np.dot(a[i],a[i]) for i in range(3)]
Out[8]: [14, 126, 366]
In [9]: np.einsum('ij,ij->i',a,a)
Out[9]: array([ 14, 126, 366])
和稀疏
In [11]: a1=sparse.csr_matrix(a)
完整的矩阵或点积比你想要的更多,对吧?你只想要对角线。
In [15]: (a1*a1.T).A
Out[15]:
array([[ 14, 38, 62],
[ 38, 126, 214],
[ 62, 214, 366]], dtype=int32)
In [16]: a.dot(a.T)
Out[16]:
array([[ 14, 38, 62],
[ 38, 126, 214],
[ 62, 214, 366]])
In [21]: (a1*a1.T).diagonal()
Out[21]: array([ 14, 126, 366], dtype=int32)
对于非常稀疏的东西,先进行全矩阵乘法再进行对角线运算可能与任何替代方法一样快。遍历稀疏矩阵的行是一个相对较慢的操作,而矩阵乘法已经用快速的 c 代码实现了。
另一种方式 - 元素乘法后求和。
In [22]: np.sum(a*a,axis=1)
Out[22]: array([ 14, 126, 366])
In [23]: a1.multiply(a1).sum(axis=1)
Out[23]:
matrix([[ 14],
[126],
[366]], dtype=int32)
稀疏实现 sum
作为矩阵乘法(乘以一列)。
In [26]: a1.multiply(a1)*np.array([1,1,1,1])[:,None]
Out[26]:
array([[ 14],
[126],
[366]], dtype=int32)