对压缩稀疏行格式的矩阵中的值取对数 (csr_matrix)

Take logarithm for values in a matrix in Compressed Sparse Row format (csr_matrix)

我有兴趣对从计数向量化文本数据中获得的计数数据取对数。我很想测试这种转换(规范化)是否有助于提高 sklearn 中模型的性能。

这是我的:

TEXT = [data[i].values()[3] for i in range(len(data))]

from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(min_df=0.01,max_df = 2.5, lowercase = False, stop_words = 'english')

X = vectorizer.fit_transform(TEXT)
X = [math.log(i+1) for i in X]

当我运行这段代码时,我得到一个错误:

File "nlpQ2.py", line 29, in <module>
X = [math.log(i+1) for i in X]
File "/opt/conda/lib/python2.7/site-packages/scipy/sparse/compressed.py", line 337, in __add__
raise NotImplementedError('adding a nonzero scalar to a '
NotImplementedError: adding a nonzero scalar to a sparse matrix is not supported

虽然我不希望这真的有效,但我想不出一种方法来对 CSR 矩阵中的值取对数。我试过了

import math
import numpy as np
from scipy.sparse import csr_matrix

A = csr_matrix([[1, 2, 0], [0, 0, 3], [4, 0, 5]])

[math.log(i+1) for i in A]

这会生成

NotImplementedError: adding a nonzero scalar to a sparse matrix is not supported

有办法解决吗?非常感谢您的帮助。

你只需要通过todense()方法将稀疏矩阵X转为稠密数组,然后使用NumPy的broadcasting计算对数即可:

X = np.log(1 + X)

如果 X 很大,将其转换为密集矩阵可能会耗尽您的 RAM。在那种情况下,方法 log1p() 是你的朋友,因为它在稀疏矩阵上运行:

X = X.log1p()