熊猫比较和删除 csv 和 xls 中的数据
Panda compare and remove data from csv and xls
我有 2 个文件(一个 .csv 和一个 .xls)。
.csv 只有一列(电子邮件)。
.xls 有很多列。
我尝试比较这两个文件中的电子邮件列,并从 .xls 中删除不在 .csv 中的邮件地址。
邮件地址未排序。
我已经写了一些代码,但我没有实现我的目标:
excel = pd.read_excel(file, skiprow=10, parse_cols = 'AL')
csv = pd.read_csv(namelist_file)
excel_keep = excel[excel.isin(csv)]
mask = excel.isin(csv.tolist())
excel[~mask]
print(excel_keep)
你有什么想法吗?
问候。
df_csv = pd.read_csv(path_to_csv)
df_xlsx = pd.read_excel(path_to_excel)
## assuming column header for email in both files is 'email'
## if not change it by df = df.rename(columns={'oldName': 'email'})
df_xlsx = df_xlsx[df_xlsx['email'].isin(df_csv['email'])]
希望对您有所帮助
我有 2 个文件(一个 .csv 和一个 .xls)。 .csv 只有一列(电子邮件)。 .xls 有很多列。 我尝试比较这两个文件中的电子邮件列,并从 .xls 中删除不在 .csv 中的邮件地址。 邮件地址未排序。
我已经写了一些代码,但我没有实现我的目标:
excel = pd.read_excel(file, skiprow=10, parse_cols = 'AL')
csv = pd.read_csv(namelist_file)
excel_keep = excel[excel.isin(csv)]
mask = excel.isin(csv.tolist())
excel[~mask]
print(excel_keep)
你有什么想法吗? 问候。
df_csv = pd.read_csv(path_to_csv)
df_xlsx = pd.read_excel(path_to_excel)
## assuming column header for email in both files is 'email'
## if not change it by df = df.rename(columns={'oldName': 'email'})
df_xlsx = df_xlsx[df_xlsx['email'].isin(df_csv['email'])]
希望对您有所帮助