sklearn.decomposition.TruncatedSVD 可以分部分应用于矩阵吗？

Question

我正在将 sklearn.decomposition.TruncatedSVD 应用于非常大的矩阵。如果矩阵超过一定大小（比如 350k x 25k），svd.fit(x) 会用完 RAM。

我正在将 svd 应用于特征矩阵，其中每一行代表从单个图像中提取的一组特征。

要解决内存问题，将 svd 应用于矩阵的各个部分（然后连接）是否安全？

结果会一样吗？即：

from sklearn.decomposition import TruncatedSVD
svd = TruncatedSVD(n_components=128)
part_1 = svd.fit_transform(features[0:100000, :])
part_2 = svd.fit_transform(features[100000:, :])
svd_features = np.concatenate((part_1, part_2), axis=0)

.. 等价于(?):

from sklearn.decomposition import TruncatedSVD
svd = TruncatedSVD(n_components=128)
svd_features = svd.fit_transform(svd_features)

如果不是，是否有对非常大的矩阵进行模糊缩减的解决方法？

Answer 1

结果会不一样，

例如，考虑下面的代码：

import numpy as np
features=np.array([[3, 2, 1, 3, 1],
       [2, 0, 1, 2, 2],
       [1, 3, 2, 1, 3],
       [1, 1, 3, 2, 3],
       [1, 1, 2, 1, 3]])
from sklearn.decomposition import TruncatedSVD
svd = TruncatedSVD(n_components=2)
svd = TruncatedSVD(n_components=2)
part_1 = svd.fit_transform(features[0:2, :])
part_2 = svd.fit_transform(features[2:, :])
svd_features = np.concatenate((part_1, part_2), axis=0)
svd_b = TruncatedSVD(n_components=2)
svd_features_b = svd_b.fit_transform(features)
print(svd_features)
print(svd_features_b)

这会打印

[[ 4.81379561 -0.90959982]
 [ 3.36212985  1.30233746]
 [ 4.70088886  1.37354278]
 [ 4.76960857 -1.06524658]
 [ 3.94551566 -0.34876626]]


[[ 4.17420185  2.47515867]
 [ 3.23525763  0.9479915 ]
 [ 4.53499272 -1.13912762]
 [ 4.69967028 -0.89231578]
 [ 3.81909069 -1.05765576]]

各不相同

sklearn.decomposition.TruncatedSVD 可以分部分应用于矩阵吗？

Can sklearn.decomposition.TruncatedSVD be applied to a matrix in parts?

python

machine-learning

matrix

svd

scikit-learn