Python Pandas:我如何才能仅根据某些列使我的 table 独一无二?
Python Pandas: How I can unique my table only based on certain columns?
我有一个 df :
如何删除仅基于一列的重复项?因为我有行,它们的所有列都相同,但只有一列不同。我想忽略该列并根据另一列获取唯一值吗?
这就是我尝试的方式,但出现错误:
data.drop_duplicates('asn','first_seen','incident_type','ip','uri')
有什么想法吗?
你 运行 pandas
是什么版本?我认为,由于 >0.14
您应该使用 subset
关键字向 drop_duplicates()
提供列列表,因此请尝试
data.drop_duplicates(subset=['asn','first_seen','incident_type','ip','uri'])
另请注意,如果您不使用 inplace=True
,则需要将返回值分配给新数据框。
根据您的需要,您可能还想在删除重复行后调用 reset_index()
。
我有一个 df :
如何删除仅基于一列的重复项?因为我有行,它们的所有列都相同,但只有一列不同。我想忽略该列并根据另一列获取唯一值吗?
这就是我尝试的方式,但出现错误:
data.drop_duplicates('asn','first_seen','incident_type','ip','uri')
有什么想法吗?
你 运行 pandas
是什么版本?我认为,由于 >0.14
您应该使用 subset
关键字向 drop_duplicates()
提供列列表,因此请尝试
data.drop_duplicates(subset=['asn','first_seen','incident_type','ip','uri'])
另请注意,如果您不使用 inplace=True
,则需要将返回值分配给新数据框。
根据您的需要,您可能还想在删除重复行后调用 reset_index()
。