如何使用 python 从数据框中删除重复项
How to remove duplicates from data frame using python
dframe= pd.DataFrame({'col1':['A']*3 + ['B']*4 + ['C','B','A'],'col2':[2,3,4,2,4,2,1,3,4,4]})
我想从两列中删除重复项,最终结果应如下所示:
pd.DataFrame({'col1':['A'] + ['B'] + ['C'],'col2':[2,4,3]})
我试过跟随,但结果不符合预期
dframe.drop_duplicates(subset=['col1'], keep='first')
请帮忙。
谢谢
尝试:
通过agg()
和dropna()
方法:
out=dframe.agg(lambda x:pd.Series(pd.unique(x))).dropna()
或
通过apply()
和dropna()
方法:
out=dframe.apply(lambda x:pd.Series(pd.unique(x))).dropna()
out
的输出:
col1 col2
0 A 2
1 B 3
2 C 4
dframe= pd.DataFrame({'col1':['A']*3 + ['B']*4 + ['C','B','A'],'col2':[2,3,4,2,4,2,1,3,4,4]})
我想从两列中删除重复项,最终结果应如下所示:
pd.DataFrame({'col1':['A'] + ['B'] + ['C'],'col2':[2,4,3]})
我试过跟随,但结果不符合预期
dframe.drop_duplicates(subset=['col1'], keep='first')
请帮忙。
谢谢
尝试:
通过agg()
和dropna()
方法:
out=dframe.agg(lambda x:pd.Series(pd.unique(x))).dropna()
或
通过apply()
和dropna()
方法:
out=dframe.apply(lambda x:pd.Series(pd.unique(x))).dropna()
out
的输出:
col1 col2
0 A 2
1 B 3
2 C 4