在 python 中查找并输出重复文件，行以逗号分隔

Question

我有一个如下所示的 CSV 文件：

Name1, 123
Name2, 123
Name1, 456
Name3, 345
Name2, 456
Name1, 123
Name3, 123
Name4, 789
Name2, 789
Name5, 136

这是我的代码：

import pyspark
import numpy as np
import pandas as pd
import csv

with open('filehash.csv') as filehash:
    csv_reader=csv.reader(filehash, delimiter=",")

for filehash in csv_reader:

    print (filehash)
    csv_reader.duplicated()

我知道，在 csv_reader 之间。和 .duplicated 我需要一个属性。但是我的 .csv table 没有属性。我猜是因为逗号那么，我怎样才能在逗号后得到我的整数值呢？？

预期的输出应该是：

True, True True, False, True, True, True, True, True, False

Answer 1

使用 pandas 读取 csv 文件使用 duplicated 获取第二列中的哪些值重复：

import pandas as pd

df = pd.read_csv('file.csv', header=None)
duplicates = df[df.columns[1]].duplicated(keep=False).to_list()

duplicates
# [True, True, True, False, True, True, True, True, True, False]

在 python 中查找并输出重复文件，行以逗号分隔

find and output duplicated files in python , The line is seperated by comma

python

numpy

file

pandas

spyder