处理多年 NetCDF 数据集的 Dask +Xarray 实现
Dask +Xarray implementation to handle multi year NetCDF Dataset
我正在尝试使用两个水文数据集(每个 70 GB),其中包含 66 年的模拟日流量和其他变量。数据集每天都有 netcdf 文件。
我需要同时打开两个数据集,如果我尝试使用 xr.open_mfdataset
打开它们,加载需要 1 个多小时。
我也试过用xr.open_mfdataset('filename', parallel = True)
,但是用的时间差不多。
我还尝试将完整的数据集分别导出到两个大型 nc 文件中,以便我可以使用块大小参数再次打开它们。但是操作一直在运行超过2.5小时就失败了。
那么,用多个文件实现 Dask xarray 的最佳方法是什么?(如何在多个文件的情况下定义块大小)。
我目前参考了 this 指南。
我通过在 PBS 集群上实施 Dask Client 找到了解决方案。我遵循了 this 指南。
我正在尝试使用两个水文数据集(每个 70 GB),其中包含 66 年的模拟日流量和其他变量。数据集每天都有 netcdf 文件。
我需要同时打开两个数据集,如果我尝试使用 xr.open_mfdataset
打开它们,加载需要 1 个多小时。
我也试过用xr.open_mfdataset('filename', parallel = True)
,但是用的时间差不多。
我还尝试将完整的数据集分别导出到两个大型 nc 文件中,以便我可以使用块大小参数再次打开它们。但是操作一直在运行超过2.5小时就失败了。
那么,用多个文件实现 Dask xarray 的最佳方法是什么?(如何在多个文件的情况下定义块大小)。 我目前参考了 this 指南。
我通过在 PBS 集群上实施 Dask Client 找到了解决方案。我遵循了 this 指南。