在保持所有维度的同时减去两个数组

Subtract two xarrays while keeping all dimensions

这可能是最基本的问题,但我就是找不到解决方案。

我有两个包含风数据的不同 xarray。两个 xarrays 都有尺寸(时间:60,plev:19,lat:90)。我现在需要在 all 维度上计算两个 xarray 之间的差异,以找出两种情况之间的异常情况。

我认为xarray.DataArray.diff函数只是为了计算一个xarray沿轴的差异(而不是计算两个xarray之间的差异)。

所以,我尝试简单地使用

diff = wind1_xarray - wind2_xarray

以及

diff = (wind1_xarray - wind2_xarray).compute() 

但是,这两种方法都为我提供了一个维度为 (time: 60, plev: 0, lat: 90) 的 xarray。为什么我在计算差异时会松开压力水平?

如何在不丢失一维的情况下计算两个 xarray 在所有维度上的差异?

谢谢大家

快速回答是您做对了,但是您的尺寸没有对齐。 xarray 旨在减去整个数组,但坐标标签必须准确对齐。您的 plev 坐标的元素之间可能存在分歧,您可以使用 xr.align:

检查
xr.align(wind1_array, wind2_array, join='exact')

有关详细信息,请参阅 computation: automatic alignment 上的 xarray 文档。

详细示例

xarray 和 numpy 之间的最大区别(假设您熟悉使用 numpy 的数学)是 xarray 依赖于沿每个维度的坐标标签在任何广播操作之前对齐数组,而不仅仅是形状。

举个例子,让我们考虑两个非常简单的数组——一个从 0 到 19 递增,另一个是 1 的块,两者都重塑为 (4, 5)。在 numpy 中将它们彼此相减很简单,因为它们的形状相同:

In [15]: arr1 = np.arange(20).reshape((4, 5))

In [16]: arr2 = np.ones(shape=(4, 5))

In [17]: arr1 - arr2
Out[17]:
array([[-1.,  0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.,  8.],
       [ 9., 10., 11., 12., 13.],
       [14., 15., 16., 17., 18.]])

xarray 等效项也很简单,但我们必须引入维度名称和坐标。假设您的压力水平以 10 hPa 的增量递减至 STP,并且纬度也以 10 递增,从 20 到 60:

In [18]: pressures = np.array([71.325, 81.325, 91.325, 101.325])

In [19]: lats = np.array([20, 30, 40, 50, 60])

In [20]: da1 = xr.DataArray(arr1, dims=['plev', 'lat'], coords=[pressures, lats])

In [21]: da2 = xr.DataArray(arr2, dims=['plev', 'lat'], coords=[pressures, lats])

In [22]: da2
Out[22]:
<xarray.DataArray (plev: 4, lat: 5)>
array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])
Coordinates:
  * plev     (plev) float64 71.33 81.33 91.33 101.3
  * lat      (lat) int64 20 30 40 50 60

In [23]: da1
Out[23]:
<xarray.DataArray (plev: 4, lat: 5)>
array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])
Coordinates:
  * plev     (plev) float64 71.33 81.33 91.33 101.3
  * lat      (lat) int64 20 30 40 50 60

这些数组是对齐的,所以减去它们很简单:

In [24]: da1 - da2
Out[24]:
<xarray.DataArray (plev: 4, lat: 5)>
array([[-1.,  0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.,  8.],
       [ 9., 10., 11., 12., 13.],
       [14., 15., 16., 17., 18.]])
Coordinates:
  * plev     (plev) float64 71.33 81.33 91.33 101.3
  * lat      (lat) int64 20 30 40 50 60

但是因为 xarray 依赖于这些坐标完全对齐,依赖浮点坐标可能会很棘手。如果我们在压力水平维度上引入一个小错误,数组就不会对齐,我们会看到类似于您的结果:

In [25]: da2 = xr.DataArray(arr2, dims=['plev', 'lat'], coords=[pressures + 1e-8, lats])

In [26]: da1 - da2
Out[26]:
<xarray.DataArray (plev: 0, lat: 5)>
array([], shape=(0, 5), dtype=float64)
Coordinates:
  * plev     (plev) float64
  * lat      (lat) int64 20 30 40 50 60

这种类型的未对齐可能由于各种原因而发生,包括通过存储的往返数据,其中编码的变化会导致微小的数字错误,这些错误显示为未对齐的数据。

您可以使用 join='exact' 参数检查这是否是 xr.align 的问题:

In [27]: xr.align(da1, da2, join='exact')
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-29-612460e52308> in <module>
----> 1 xr.align(da1, da2, join='exact')

~/miniconda3/envs/myenv/lib/python3.9/site-packages/xarray/core/alignment.py in align(join, copy, indexes, exclude, fill_value, *objects)
    320             ):
    321                 if join == "exact":
--> 322                     raise ValueError(f"indexes along dimension {dim!r} are not equal")
    323                 joiner = _get_joiner(join, type(matching_indexes[0]))
    324                 index = joiner(matching_indexes)

ValueError: indexes along dimension 'plev' are not equal

要解决此问题,您可以尝试将坐标四舍五入为已知的坐标公差:

In [32]: da2['plev'] = np.round(da2['plev'], 3)

In [33]: da1 - da2
Out[33]:
<xarray.DataArray (plev: 4, lat: 5)>
array([[-1.,  0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.,  8.],
       [ 9., 10., 11., 12., 13.],
       [14., 15., 16., 17., 18.]])
Coordinates:
  * plev     (plev) float64 71.33 81.33 91.33 101.3
  * lat      (lat) int64 20 30 40 50 60

或者,您可以设置一个 positional/integer 坐标,将实际压力水平作为非索引坐标:

In [42]: da1
Out[42]:
<xarray.DataArray (plev_ind: 4, lat: 5)>
array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])
Coordinates:
    plev      (plev_ind) float64 71.33 81.33 91.33 101.3
  * lat       (lat) int64 20 30 40 50 60
  * plev_ind  (plev_ind) int64 71325 81325 91325 101325

In [43]: da2
Out[43]:
<xarray.DataArray (plev_ind: 4, lat: 5)>
array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])
Coordinates:
    plev      (plev_ind) float64 71.33 81.33 91.33 101.3
  * lat       (lat) int64 20 30 40 50 60
  * plev_ind  (plev_ind) int64 71325 81325 91325 101325

In [44]: da1 - da2
Out[44]:
<xarray.DataArray (plev_ind: 4, lat: 5)>
array([[-1.,  0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.,  8.],
       [ 9., 10., 11., 12., 13.],
       [14., 15., 16., 17., 18.]])
Coordinates:
  * lat       (lat) int64 20 30 40 50 60
  * plev_ind  (plev_ind) int64 71325 81325 91325 101325