在 python 中查找并输出重复文件,行以逗号分隔

find and output duplicated files in python , The line is seperated by comma

我有一个如下所示的 CSV 文件:

Name1, 123
Name2, 123
Name1, 456
Name3, 345
Name2, 456
Name1, 123
Name3, 123
Name4, 789
Name2, 789
Name5, 136

这是我的代码:

import pyspark
import numpy as np
import pandas as pd
import csv

with open('filehash.csv') as filehash:
    csv_reader=csv.reader(filehash, delimiter=",")

for filehash in csv_reader:

    print (filehash)
    csv_reader.duplicated()

我知道,在 csv_reader 之间。和 .duplicated 我需要一个属性。但是我的 .csv table 没有属性。我猜是因为逗号 那么,我怎样才能在逗号后得到我的整数值呢??

预期的输出应该是:

True, True True, False, True, True, True, True, True, False

使用 pandas 读取 csv 文件 使用 duplicated 获取第二列中的哪些值重复:

import pandas as pd

df = pd.read_csv('file.csv', header=None)
duplicates = df[df.columns[1]].duplicated(keep=False).to_list()

duplicates
# [True, True, True, False, True, True, True, True, True, False]