如何使用 python 从数据框中删除重复项

Question

dframe= pd.DataFrame({'col1':['A']*3 + ['B']*4 + ['C','B','A'],'col2':[2,3,4,2,4,2,1,3,4,4]})

我想从两列中删除重复项，最终结果应如下所示：

pd.DataFrame({'col1':['A'] + ['B'] + ['C'],'col2':[2,4,3]})

我试过跟随，但结果不符合预期

dframe.drop_duplicates(subset=['col1'], keep='first')

请帮忙。

谢谢

Answer 1

尝试：

通过agg()和dropna()方法：

out=dframe.agg(lambda x:pd.Series(pd.unique(x))).dropna()

或

通过apply()和dropna()方法：

out=dframe.apply(lambda x:pd.Series(pd.unique(x))).dropna()

out的输出：

    col1    col2
0   A       2
1   B       3
2   C       4

How to remove duplicates from data frame using python