dask 工作因为内存使用而被杀死?
dask job killed because memory usage?
您好,我有一个 python 脚本,它使用 dask 库来处理非常大的数据帧,大于物理内存。我注意到如果内存使用率在一段时间内保持在计算机的 100%,则作业会在 运行 中间被终止。
是否符合预期?我原以为数据会溢出到磁盘并且还有很多磁盘 space 剩余。
有没有办法限制它的总内存使用量?谢谢
编辑:
我也试过:
dask.set_options(available_memory=12e9)
没用。它似乎没有限制其内存使用。同样,当内存使用率达到 100% 时,作业将被终止。
尝试通过以下方式分块浏览数据:
chunksize = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunksize):
process(chunk)
行
ddf = ddf.set_index("sort_col").compute()
实际上是将整个数据帧拉入内存并转换为pandas。您想要删除 .compute()
,并在调用 compute
产生足够小的结果之前首先应用您想要的任何逻辑(过滤、groupby/aggregations 等)。
要记住的重要一点是,结果输出必须能够放入内存,并且每个 worker 正在处理的每个块(加上开销)也需要能够放入内存。
您好,我有一个 python 脚本,它使用 dask 库来处理非常大的数据帧,大于物理内存。我注意到如果内存使用率在一段时间内保持在计算机的 100%,则作业会在 运行 中间被终止。
是否符合预期?我原以为数据会溢出到磁盘并且还有很多磁盘 space 剩余。
有没有办法限制它的总内存使用量?谢谢
编辑:
我也试过:
dask.set_options(available_memory=12e9)
没用。它似乎没有限制其内存使用。同样,当内存使用率达到 100% 时,作业将被终止。
尝试通过以下方式分块浏览数据:
chunksize = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunksize):
process(chunk)
行
ddf = ddf.set_index("sort_col").compute()
实际上是将整个数据帧拉入内存并转换为pandas。您想要删除 .compute()
,并在调用 compute
产生足够小的结果之前首先应用您想要的任何逻辑(过滤、groupby/aggregations 等)。
要记住的重要一点是,结果输出必须能够放入内存,并且每个 worker 正在处理的每个块(加上开销)也需要能够放入内存。