写 to_netcdf 时为 xarray 数据集中的许多变量指定 encoding/compression

Question

我一直在写一些有多个变量的 xarray.Datasets。目前，为了保持大小可管理，我指定了编码，例如zlib，但需要按变量应用于变量（dataArray）。

将相同的编码参数应用于所有变量的好方法是什么？例如

<xarray.Dataset>
Dimensions:  (lat: 1440, lon: 2880)
Coordinates:
  * lat      (lat) float64 -90.0 -89.88 -89.75 -89.62 -89.5 -89.38 -89.25 ...
  * lon      (lon) float64 -180.0 -179.9 -179.8 -179.6 -179.5 -179.4 -179.2 ...
Data variables:
a1     (lat, lon) float64 nan nan nan nan nan nan nan nan 0.0 ...
b     (lat, lon) float64 nan nan nan nan nan nan 0.0 0.0 0.0 ...
c     (lat, lon) float64 nan nan nan nan nan nan nan nan 0.0 ...
d      (lat, lon) float64 nan nan nan nan nan nan nan nan 0.0 ...
e      (lat, lon) float64 nan nan nan nan nan nan nan nan 0.0 ...

写出这个数据集时，我们会使用：

ds.to_netcdf(filename, encoding={'a1':{'zlib': True,'complevel': 5},'b':{'zlib': True,'complevel': 5},'c':{'zlib': True,'complevel': 5},'d':{'zlib': True,'complevel': 5},'e':{'zlib': True,'complevel': 5}})

对于更多的变量，这会变得很冗长。一种选择是在顺序追加的基础上将每个数据数组写入 netcdf，但是当数据集准备好时，这似乎也很复杂。

Answer 1

我只是动态创建编码参数：

comp = dict(zlib=True, complevel=5)
encoding = {var: comp for var in ds.data_vars}
ds.to_netcdf(filename, encoding=encoding)

Answer 2

或者您可以存储数据集中每个变量的编码信息：

comp = dict(zlib=True, complevel=5)
for var in ds.data_vars: 
    var.encoding.update(comp)
ds.to_netcdf(filename)

Answer 3

https://github.com/pydata/xarray/discussions/5709

此回答导致 _FillValue 丢失`：

此回答提出'RuntimeError: NetCDF: Invalid argument'：

但是，这有效：

encoding = {}
encoding_keys = ("_FillValue", "dtype", "scale_factor", "add_offset", "grid_mapping")
for data_var in ds.data_vars:
    encoding[data_var] = {key: value for key, value in ds[data_var].encoding.items() if key in encoding_keys}
    encoding[data_var].update(zlib=True, complevel=5)

ds.to_netcdf(filename, encoding=encoding)

写 to_netcdf 时为 xarray 数据集中的许多变量指定 encoding/compression

Specify encoding/compression for many variables in xarray dataset when write to_netcdf

python-xarray