有效地初始化一个 numpy 稀疏矩阵

Initialize a numpy sparse matrix efficiently

我有一个数组,有m行,数组为值,表示列的索引,并且限制为一个大数n。 例如:

 Y = [[1,34,203,2032],...,[2984]]

现在我想要一种有效的方法来初始化一个稀疏的 numpy 矩阵 X,其维度为 m、n 和对应于 Y 的值(X[i,j] = 1,如果 j 在 Y[i] 中,否则 = 0 ).

您的数据已经接近csr格式,所以我建议使用:

import numpy as np
from scipy import sparse
from itertools import chain

# create an example    
m, n = 20, 10
X = np.random.random((m, n)) < 0.1
Y = [list(np.where(y)[0]) for y in X]

# construct the sparse matrix
indptr = np.fromiter(chain((0,), map(len, Y)), int, len(Y) + 1).cumsum()
indices = np.fromiter(chain.from_iterable(Y), int, indptr[-1])
data = np.ones_like(indices)    
S = sparse.csr_matrix((data, indices, indptr), (m, n))
# or    
S = sparse.csr_matrix((data, indices, indptr))

# check
assert np.all(S==X)