来自大型无序 csv 文件的 dask set_index

Question

冒着有点跑题的风险，我想展示一个简单的解决方案，用于在 dask 数据框中加载大型 csv 文件，其中可以应用选项 sorted=True 并节省大量处理时间。

我发现在 dask 中执行 set_index 的选项对于我用于学习的玩具集群的大小和文件的大小 (33GB) 是行不通的。

因此，如果您的问题是将大型未排序的 CSV 文件（数十 GB）加载到 dask 数据帧中并快速开始执行 groupbys，我的建议是预先使用 unix 命令对它们进行排序 "sort"。

排序处理需求可以忽略不计，它不会使您的 RAM 限制超出无法管理的限制。您可以将并行进程的数量定义为 run/sort 以及作为缓冲区消耗的 ram。就你的磁盘 space 而言，这太棒了。

这里的技巧是在发出命令之前在您的环境中导出 LC_ALL=C。无论哪种方式，pandas/dask 排序和 unix 排序都会产生不同的结果。

这是我用过的代码

export LC_ALL=C

zcat BigFat.csv.gz |
fgrep -v ( have headers?? take them away)|
sort -key=1,1 -t "," ( fancy multi field sorting/index ? -key=3,3 -key=4,4)|
split -l 10000000 ( partitions ??)

结果已准备好

ddf=dd.read_csv(.....)
ddf.set_index(ddf.mykey,sorted=True)

希望对您有所帮助

JC

Answer 1

正如上面所讨论的，我发布这个只是为了解决我的问题。希望对别人有用。

我并不是说这是最好的、最有效的或更 pythonic 的！ :-)

来自大型无序 csv 文件的 dask set_index

dask set_index from large unordered csv file

python

csv

sorting

indexing

dask