Python pandas 块大小文件的唯一值

Question

嗨，我有一个巨大的 tsv 文件需要处理，所以我需要对其进行分块处理，所以我使用了这样的代码

MyList = []
Chunksize = 1000000
for chunk in pd.read_csv("wiki_editor_months.201508.tsv", sep="\t", chunksize=Chunksize):
    MyList.append(chunk)

然后我想在其中一列 (wiki) 中搜索唯一值，我唯一的想法就是这段代码

MyList[0].wiki.unique()

使用这段代码有点问题，因为我一次只能搜索一个块（有 43 个），然后在不同的块中有重复项，有没有人知道如何在这个块大小的文件上使用 .unique一次不在一块上？

Answer 1

看看这是否能解决您的问题。

unique_values = set()
chunk_size = 1000000
for chunk in pd.read_csv("wiki_editor_months.201508.tsv", sep="\t", chunksize=chunk_size):
    unique_values = unique_values | set(chunk.wiki.unique())

Python pandas 块大小文件的唯一值

Python pandas unique values on chunksized file

unique

chunks

pandas