Python pandas 块大小文件的唯一值
Python pandas unique values on chunksized file
嗨,我有一个巨大的 tsv 文件需要处理,所以我需要对其进行分块处理,所以我使用了这样的代码
MyList = []
Chunksize = 1000000
for chunk in pd.read_csv("wiki_editor_months.201508.tsv", sep="\t", chunksize=Chunksize):
MyList.append(chunk)
然后我想在其中一列 (wiki) 中搜索唯一值,我唯一的想法就是这段代码
MyList[0].wiki.unique()
使用这段代码有点问题,因为我一次只能搜索一个块(有 43 个),然后在不同的块中有重复项,有没有人知道如何在这个块大小的文件上使用 .unique一次不在一块上?
看看这是否能解决您的问题。
unique_values = set()
chunk_size = 1000000
for chunk in pd.read_csv("wiki_editor_months.201508.tsv", sep="\t", chunksize=chunk_size):
unique_values = unique_values | set(chunk.wiki.unique())
嗨,我有一个巨大的 tsv 文件需要处理,所以我需要对其进行分块处理,所以我使用了这样的代码
MyList = []
Chunksize = 1000000
for chunk in pd.read_csv("wiki_editor_months.201508.tsv", sep="\t", chunksize=Chunksize):
MyList.append(chunk)
然后我想在其中一列 (wiki) 中搜索唯一值,我唯一的想法就是这段代码
MyList[0].wiki.unique()
使用这段代码有点问题,因为我一次只能搜索一个块(有 43 个),然后在不同的块中有重复项,有没有人知道如何在这个块大小的文件上使用 .unique一次不在一块上?
看看这是否能解决您的问题。
unique_values = set()
chunk_size = 1000000
for chunk in pd.read_csv("wiki_editor_months.201508.tsv", sep="\t", chunksize=chunk_size):
unique_values = unique_values | set(chunk.wiki.unique())