dask 工作因为内存使用而被杀死？

Question

您好，我有一个 python 脚本，它使用 dask 库来处理非常大的数据帧，大于物理内存。我注意到如果内存使用率在一段时间内保持在计算机的 100%，则作业会在运行中间被终止。

是否符合预期？我原以为数据会溢出到磁盘并且还有很多磁盘 space 剩余。

有没有办法限制它的总内存使用量？谢谢

编辑：

我也试过：

dask.set_options(available_memory=12e9)

没用。它似乎没有限制其内存使用。同样，当内存使用率达到 100% 时，作业将被终止。

Answer 1

尝试通过以下方式分块浏览数据：

chunksize = 10 ** 6 for chunk in pd.read_csv(filename, chunksize=chunksize): process(chunk)

Answer 2

行

 ddf = ddf.set_index("sort_col").compute()

实际上是将整个数据帧拉入内存并转换为pandas。您想要删除 .compute()，并在调用 compute 产生足够小的结果之前首先应用您想要的任何逻辑（过滤、groupby/aggregations 等）。

要记住的重要一点是，结果输出必须能够放入内存，并且每个 worker 正在处理的每个块（加上开销）也需要能够放入内存。

dask job killed because memory usage?