sklearn/opencv 库中的 PCA transform/project 函数是否保留原始数据集的顺序？

Question

我想知道 sklearn.decomposition.PCA or project() from C++ opencv 中的 transform() 是否重新排列了原始数据的结果。

pca.py:

import pandas as pd
from sklearn.decomposition import PCA

# read csv into dataframe
df = pd.read_csv('sample.csv')
columns=['x', 'y']

pca = PCA()
pca.fit(df)

t = pca.transform(df)
print(t)

sample.csv:

x,y
2.5,2.4
0.5,0.7
2.2,2.9
1.9,2.2
3.1,3.0
2.3,2.7
2,1.6
1,1.1
1.5,1.6
1.1,0.9

转换数据：

[[-0.82797019 -0.17511531]
 [ 1.77758033  0.14285723]
 [-0.99219749  0.38437499]
 [-0.27421042  0.13041721]
 [-1.67580142 -0.20949846]
 [-0.9129491   0.17528244]
 [ 0.09910944 -0.3498247 ]
 [ 1.14457216  0.04641726]
 [ 0.43804614  0.01776463]
 [ 1.22382056 -0.16267529]]

我想确保 (2.5, 2.4) 对应于 (-0.82797019, -0.17511531)，(0.5,0.7) 对应于 (1.77758033,0.14285723) 等等。

OpenCV PCA class' project() 输出相同。但是特征值似乎从 OpenCV 库中自动按降序重新排列，所以我想知道这些 transformed/projected 数据是否也相应排列。

Answer 1

简而言之，是的，样本顺序与projections/transform相同。另一方面，特征值在 sklearn 和 OpenCv 以及几乎所有 PCA 实现中总是按降序排序，因为这是 PCA 的要点：保留最大的特征值。

sklearn/opencv 库中的 PCA transform/project 函数是否保留原始数据集的顺序？

Do PCA transform/project functions from sklearn/opencv libraries retain the order of the original data set?

opencv

pca

scikit-learn