如何打开和处理超大的 800PB csv 文件?

How can i open and process super heavy 800PB csv file?

如何打开 800 PB 的文件?

这是一些数据科学竞赛的文件 - 807167556410028 kb = 800000,556410028 TB = ~800PB

它存档为 600 MB,但由于尺寸太大,我无法解压缩。 是否可以使用 pandas 从压缩存档中读取前 1000 行?

import zipfile
archive = zipfile.ZipFile('bigfile.zip')
file = archive.open('big.csv')
textfilereader = pd.read_csv(file, chunksize=1000000)
df = textfilereader.get_chunk()

#df now is the dataframe.

这只是部分回答,因为它只读取块大小的行数。

p.s。我用 300 万行测试了它,它因内存错误而失败。

p.p.s。这是我的 winrar 存档程序的错误!我安装了 7zip,它显示只有 5GB!大声笑,很好的教训,有时是程序,而不是数据集!