在 python 中查找并输出重复文件,行以逗号分隔
find and output duplicated files in python , The line is seperated by comma
我有一个如下所示的 CSV 文件:
Name1, 123
Name2, 123
Name1, 456
Name3, 345
Name2, 456
Name1, 123
Name3, 123
Name4, 789
Name2, 789
Name5, 136
这是我的代码:
import pyspark
import numpy as np
import pandas as pd
import csv
with open('filehash.csv') as filehash:
csv_reader=csv.reader(filehash, delimiter=",")
for filehash in csv_reader:
print (filehash)
csv_reader.duplicated()
我知道,在 csv_reader 之间。和 .duplicated 我需要一个属性。但是我的 .csv table 没有属性。我猜是因为逗号
那么,我怎样才能在逗号后得到我的整数值呢??
预期的输出应该是:
True, True True, False, True, True, True, True, True, False
使用 pandas 读取 csv
文件 使用 duplicated
获取第二列中的哪些值重复:
import pandas as pd
df = pd.read_csv('file.csv', header=None)
duplicates = df[df.columns[1]].duplicated(keep=False).to_list()
duplicates
# [True, True, True, False, True, True, True, True, True, False]
我有一个如下所示的 CSV 文件:
Name1, 123
Name2, 123
Name1, 456
Name3, 345
Name2, 456
Name1, 123
Name3, 123
Name4, 789
Name2, 789
Name5, 136
这是我的代码:
import pyspark
import numpy as np
import pandas as pd
import csv
with open('filehash.csv') as filehash:
csv_reader=csv.reader(filehash, delimiter=",")
for filehash in csv_reader:
print (filehash)
csv_reader.duplicated()
我知道,在 csv_reader 之间。和 .duplicated 我需要一个属性。但是我的 .csv table 没有属性。我猜是因为逗号 那么,我怎样才能在逗号后得到我的整数值呢??
预期的输出应该是:
True, True True, False, True, True, True, True, True, False
使用 pandas 读取 csv
文件 使用 duplicated
获取第二列中的哪些值重复:
import pandas as pd
df = pd.read_csv('file.csv', header=None)
duplicates = df[df.columns[1]].duplicated(keep=False).to_list()
duplicates
# [True, True, True, False, True, True, True, True, True, False]