如何使用 python pandas 删除 csv 列中的完全重复项

Question

所以我在做一些基本的数据处理。在 'updated_at' 列中，我多次显示相同的值。除了一个，我如何删除所有这些？希望图片有所帮助。如果你们需要更多说明，请告诉我。

df = df.set_index("updated_at")
new_df = df.where(~df.apply(pd.Series.duplicated, 1), "").reset_index()

我试过上面的代码但没有用

[图片]

Answer 1

import pandas as pd

df = pd.read_csv(filepath)
new_df = df.drop_duplicates(subset=['updated_at'])
new_df

Answer 2

如果您只需要考虑updated_add列，您可以使用下面的代码。如果您需要所有列中的元素在删除行之前都相同，则可以选择删除子集参数。

data.drop_duplicates（子集=“updated_at”，inplace = True）

How to delete an exact duplicates in a column in csv using python pandas