Python pandas 块大小文件的唯一值

Python pandas unique values on chunksized file

嗨,我有一个巨大的 tsv 文件需要处理,所以我需要对其进行分块处理,所以我使用了这样的代码

MyList = []
Chunksize = 1000000
for chunk in pd.read_csv("wiki_editor_months.201508.tsv", sep="\t", chunksize=Chunksize):
    MyList.append(chunk)

然后我想在其中一列 (wiki) 中搜索唯一值,我唯一的想法就是这段代码

MyList[0].wiki.unique()

使用这段代码有点问题,因为我一次只能搜索一个块(有 43 个),然后在不同的块中有重复项,有没有人知道如何在这个块大小的文件上使用 .unique一次不在一块上?

看看这是否能解决您的问题。

unique_values = set()
chunk_size = 1000000
for chunk in pd.read_csv("wiki_editor_months.201508.tsv", sep="\t", chunksize=chunk_size):
    unique_values = unique_values | set(chunk.wiki.unique())