如何使用 python pandas 删除 csv 列中的完全重复项
How to delete an exact duplicates in a column in csv using python pandas
所以我在做一些基本的数据处理。在 'updated_at' 列中,我多次显示相同的值。除了一个,我如何删除所有这些?希望图片有所帮助。如果你们需要更多说明,请告诉我。
df = df.set_index("updated_at")
new_df = df.where(~df.apply(pd.Series.duplicated, 1), "").reset_index()
我试过上面的代码但没有用
[图片]
import pandas as pd
df = pd.read_csv(filepath)
new_df = df.drop_duplicates(subset=['updated_at'])
new_df
如果您只需要考虑updated_add列,您可以使用下面的代码。如果您需要所有列中的元素在删除行之前都相同,则可以选择删除子集参数。
data.drop_duplicates(子集=“updated_at”,inplace = True)
有关更多选项,请参阅下面的 link
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html
所以我在做一些基本的数据处理。在 'updated_at' 列中,我多次显示相同的值。除了一个,我如何删除所有这些?希望图片有所帮助。如果你们需要更多说明,请告诉我。
df = df.set_index("updated_at")
new_df = df.where(~df.apply(pd.Series.duplicated, 1), "").reset_index()
我试过上面的代码但没有用
[图片]
import pandas as pd
df = pd.read_csv(filepath)
new_df = df.drop_duplicates(subset=['updated_at'])
new_df
如果您只需要考虑updated_add列,您可以使用下面的代码。如果您需要所有列中的元素在删除行之前都相同,则可以选择删除子集参数。
data.drop_duplicates(子集=“updated_at”,inplace = True)
有关更多选项,请参阅下面的 link https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html