如何降低二进制数据的维度？

Question

我有一个包含二进制数据的数据框，我知道列之间存在依赖关系。我想删除依赖列，只想保留独立列。输入示例如下：

Test ,A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,P
test1,0,0,0,0,0,0,0,1,1,1,1,1,0,1,1,1
test2,1,1,1,0,1,1,1,1,1,1,1,1,1,0,0,1
test3,1,1,1,0,1,1,1,1,1,1,1,1,1,0,0,1
test4,1,1,1,1,0,0,1,1,1,1,1,1,1,0,0,1
test5,1,1,1,1,0,0,1,1,1,1,1,1,1,0,0,1

在这里我们看到，(A,B,C,G,M), (D), (E,F), (H,I,J,K,L,P) and (N, O) 是具有相同值或依赖列的组的列。最后我想得到以下列：

Test,A,D,E,H,N test1,0,0,0,1,1 test2,1,0,1,1,0 test3,1,0,1,1,0 test4,1,1,0,1,0 test5,1,1,0,1,0

我正在尝试在 python 中使用 PCA，但无法实现。有人可以指导我如何实现这一目标吗？

编辑： 这是我使用的示例代码

import pandas as pd 
import numpy as np 
from sklearn.decomposition import PCA

df = pd.read_csv("TestInput.csv")
print(df)
pca = PCA()

#Remote the header and the row names
numDf = df.iloc[:,1:]
print(pca.fit(numDf))
T=pca.transform(numDf)

print("Number of unique columns are:", T.shape[1])
print(np.cumsum(pca.explained_variance_ratio_))

谢谢。

Answer 1

正在将转换为答案，查找并删除包含 drop_duplicates 的重复列。

df = df.set_index('Test')
df.T.drop_duplicates(keep='first').T

       A  D  E  H  N
Test                
test1  0  0  0  1  1
test2  1  0  1  1  0
test3  1  0  1  1  0
test4  1  1  0  1  0
test5  1  1  0  1  0

如何降低二进制数据的维度？

How to reduce dimension of the binary data?

python

machine-learning

pca

dataframe