用 dask 迭代地填充 xarray 中的 NaN 值

Iteratively fill NaN values in xarray with dask

我有一个大型三维数据集(y、x、时间),其中存在明显的间隙 (NaN)。我想用上一次的值迭代地填充缺失值。

这是一个玩具示例:

import xarray as xr
import numpy as np

# 1. Generate a sample DataArray with missing values
dims = ('y', 'x', 't')
shape = (1000, 1000, 10)
coords = {d: np.arange(s) for d, s in zip(dims, shape)}
mask = np.random.randint(0, 2, shape)
data = np.where(mask, np.random.rand(*shape), np.nan)
da = xr.DataArray(data, dims=dims, coords=coords)

# 2. Write and reload from disk as dask array
da.to_netcdf('_tmp.nc')
da = xr.open_dataarray('_tmp.nc', chunks={'y': 100, 'x': 100, 't': 1})

# 3. Iteratively fill gaps
for t in range(1, len(da['t'])):
    # The following doesn't work with dask arrays
    da[{'t': t}] = da[{'t': t}].fillna(da[{'t': t-1}])

这可以正常工作,除了 dask 数组不支持项目分配,因此最后一行不起作用。我的数据集太大而无法读入内存,因此调用 .load() 不是一个选项。

有没有办法以这种方式使用 .fillna() 同时仍然利用通过 dask 提供的块的惰性评估?

我的真实数据大约是10000x10000x100,包含多个变量。

目前,Xarray 仅部分支持此类操作。理想情况下,您可以使用 da.ffill(),但实施中存在一些现有问题,可能无法为您提供所需的结果(明确地说,xarray 目前不支持块之间的填充)。

您可能需要查看此 GitHub 问题以尝试可能的解决方法:https://github.com/pydata/xarray/issues/2699

我鼓励你参与这个问题,如果它看起来像你想要的。