Python Pandas：我如何才能仅根据某些列使我的 table 独一无二？

Question

我有一个 df :

如何删除仅基于一列的重复项？因为我有行，它们的所有列都相同，但只有一列不同。我想忽略该列并根据另一列获取唯一值吗？

这就是我尝试的方式，但出现错误：

data.drop_duplicates('asn','first_seen','incident_type','ip','uri')

有什么想法吗？

Answer 1

你运行 pandas 是什么版本？我认为，由于 >0.14 您应该使用 subset 关键字向 drop_duplicates() 提供列列表，因此请尝试

data.drop_duplicates(subset=['asn','first_seen','incident_type','ip','uri'])

另请注意，如果您不使用 inplace=True，则需要将返回值分配给新数据框。

根据您的需要，您可能还想在删除重复行后调用 reset_index()。

Python Pandas: How I can unique my table only based on certain columns?