在保持所有维度的同时减去两个数组
Subtract two xarrays while keeping all dimensions
这可能是最基本的问题,但我就是找不到解决方案。
我有两个包含风数据的不同 xarray。两个 xarrays 都有尺寸(时间:60,plev:19,lat:90)。我现在需要在 all 维度上计算两个 xarray 之间的差异,以找出两种情况之间的异常情况。
我认为xarray.DataArray.diff函数只是为了计算一个xarray沿轴的差异(而不是计算两个xarray之间的差异)。
所以,我尝试简单地使用
diff = wind1_xarray - wind2_xarray
以及
diff = (wind1_xarray - wind2_xarray).compute()
但是,这两种方法都为我提供了一个维度为 (time: 60, plev: 0, lat: 90) 的 xarray。为什么我在计算差异时会松开压力水平?
如何在不丢失一维的情况下计算两个 xarray 在所有维度上的差异?
谢谢大家
快速回答是您做对了,但是您的尺寸没有对齐。 xarray
旨在减去整个数组,但坐标标签必须准确对齐。您的 plev 坐标的元素之间可能存在分歧,您可以使用 xr.align
:
检查
xr.align(wind1_array, wind2_array, join='exact')
有关详细信息,请参阅 computation: automatic alignment 上的 xarray 文档。
详细示例
xarray 和 numpy 之间的最大区别(假设您熟悉使用 numpy 的数学)是 xarray 依赖于沿每个维度的坐标标签在任何广播操作之前对齐数组,而不仅仅是形状。
举个例子,让我们考虑两个非常简单的数组——一个从 0 到 19 递增,另一个是 1 的块,两者都重塑为 (4, 5)
。在 numpy 中将它们彼此相减很简单,因为它们的形状相同:
In [15]: arr1 = np.arange(20).reshape((4, 5))
In [16]: arr2 = np.ones(shape=(4, 5))
In [17]: arr1 - arr2
Out[17]:
array([[-1., 0., 1., 2., 3.],
[ 4., 5., 6., 7., 8.],
[ 9., 10., 11., 12., 13.],
[14., 15., 16., 17., 18.]])
xarray 等效项也很简单,但我们必须引入维度名称和坐标。假设您的压力水平以 10 hPa 的增量递减至 STP,并且纬度也以 10 递增,从 20 到 60:
In [18]: pressures = np.array([71.325, 81.325, 91.325, 101.325])
In [19]: lats = np.array([20, 30, 40, 50, 60])
In [20]: da1 = xr.DataArray(arr1, dims=['plev', 'lat'], coords=[pressures, lats])
In [21]: da2 = xr.DataArray(arr2, dims=['plev', 'lat'], coords=[pressures, lats])
In [22]: da2
Out[22]:
<xarray.DataArray (plev: 4, lat: 5)>
array([[1., 1., 1., 1., 1.],
[1., 1., 1., 1., 1.],
[1., 1., 1., 1., 1.],
[1., 1., 1., 1., 1.]])
Coordinates:
* plev (plev) float64 71.33 81.33 91.33 101.3
* lat (lat) int64 20 30 40 50 60
In [23]: da1
Out[23]:
<xarray.DataArray (plev: 4, lat: 5)>
array([[ 0, 1, 2, 3, 4],
[ 5, 6, 7, 8, 9],
[10, 11, 12, 13, 14],
[15, 16, 17, 18, 19]])
Coordinates:
* plev (plev) float64 71.33 81.33 91.33 101.3
* lat (lat) int64 20 30 40 50 60
这些数组是对齐的,所以减去它们很简单:
In [24]: da1 - da2
Out[24]:
<xarray.DataArray (plev: 4, lat: 5)>
array([[-1., 0., 1., 2., 3.],
[ 4., 5., 6., 7., 8.],
[ 9., 10., 11., 12., 13.],
[14., 15., 16., 17., 18.]])
Coordinates:
* plev (plev) float64 71.33 81.33 91.33 101.3
* lat (lat) int64 20 30 40 50 60
但是因为 xarray 依赖于这些坐标完全对齐,依赖浮点坐标可能会很棘手。如果我们在压力水平维度上引入一个小错误,数组就不会对齐,我们会看到类似于您的结果:
In [25]: da2 = xr.DataArray(arr2, dims=['plev', 'lat'], coords=[pressures + 1e-8, lats])
In [26]: da1 - da2
Out[26]:
<xarray.DataArray (plev: 0, lat: 5)>
array([], shape=(0, 5), dtype=float64)
Coordinates:
* plev (plev) float64
* lat (lat) int64 20 30 40 50 60
这种类型的未对齐可能由于各种原因而发生,包括通过存储的往返数据,其中编码的变化会导致微小的数字错误,这些错误显示为未对齐的数据。
您可以使用 join='exact'
参数检查这是否是 xr.align
的问题:
In [27]: xr.align(da1, da2, join='exact')
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-29-612460e52308> in <module>
----> 1 xr.align(da1, da2, join='exact')
~/miniconda3/envs/myenv/lib/python3.9/site-packages/xarray/core/alignment.py in align(join, copy, indexes, exclude, fill_value, *objects)
320 ):
321 if join == "exact":
--> 322 raise ValueError(f"indexes along dimension {dim!r} are not equal")
323 joiner = _get_joiner(join, type(matching_indexes[0]))
324 index = joiner(matching_indexes)
ValueError: indexes along dimension 'plev' are not equal
要解决此问题,您可以尝试将坐标四舍五入为已知的坐标公差:
In [32]: da2['plev'] = np.round(da2['plev'], 3)
In [33]: da1 - da2
Out[33]:
<xarray.DataArray (plev: 4, lat: 5)>
array([[-1., 0., 1., 2., 3.],
[ 4., 5., 6., 7., 8.],
[ 9., 10., 11., 12., 13.],
[14., 15., 16., 17., 18.]])
Coordinates:
* plev (plev) float64 71.33 81.33 91.33 101.3
* lat (lat) int64 20 30 40 50 60
或者,您可以设置一个 positional/integer 坐标,将实际压力水平作为非索引坐标:
In [42]: da1
Out[42]:
<xarray.DataArray (plev_ind: 4, lat: 5)>
array([[ 0, 1, 2, 3, 4],
[ 5, 6, 7, 8, 9],
[10, 11, 12, 13, 14],
[15, 16, 17, 18, 19]])
Coordinates:
plev (plev_ind) float64 71.33 81.33 91.33 101.3
* lat (lat) int64 20 30 40 50 60
* plev_ind (plev_ind) int64 71325 81325 91325 101325
In [43]: da2
Out[43]:
<xarray.DataArray (plev_ind: 4, lat: 5)>
array([[1., 1., 1., 1., 1.],
[1., 1., 1., 1., 1.],
[1., 1., 1., 1., 1.],
[1., 1., 1., 1., 1.]])
Coordinates:
plev (plev_ind) float64 71.33 81.33 91.33 101.3
* lat (lat) int64 20 30 40 50 60
* plev_ind (plev_ind) int64 71325 81325 91325 101325
In [44]: da1 - da2
Out[44]:
<xarray.DataArray (plev_ind: 4, lat: 5)>
array([[-1., 0., 1., 2., 3.],
[ 4., 5., 6., 7., 8.],
[ 9., 10., 11., 12., 13.],
[14., 15., 16., 17., 18.]])
Coordinates:
* lat (lat) int64 20 30 40 50 60
* plev_ind (plev_ind) int64 71325 81325 91325 101325
这可能是最基本的问题,但我就是找不到解决方案。
我有两个包含风数据的不同 xarray。两个 xarrays 都有尺寸(时间:60,plev:19,lat:90)。我现在需要在 all 维度上计算两个 xarray 之间的差异,以找出两种情况之间的异常情况。
我认为xarray.DataArray.diff函数只是为了计算一个xarray沿轴的差异(而不是计算两个xarray之间的差异)。
所以,我尝试简单地使用
diff = wind1_xarray - wind2_xarray
以及
diff = (wind1_xarray - wind2_xarray).compute()
但是,这两种方法都为我提供了一个维度为 (time: 60, plev: 0, lat: 90) 的 xarray。为什么我在计算差异时会松开压力水平?
如何在不丢失一维的情况下计算两个 xarray 在所有维度上的差异?
谢谢大家
快速回答是您做对了,但是您的尺寸没有对齐。 xarray
旨在减去整个数组,但坐标标签必须准确对齐。您的 plev 坐标的元素之间可能存在分歧,您可以使用 xr.align
:
xr.align(wind1_array, wind2_array, join='exact')
有关详细信息,请参阅 computation: automatic alignment 上的 xarray 文档。
详细示例
xarray 和 numpy 之间的最大区别(假设您熟悉使用 numpy 的数学)是 xarray 依赖于沿每个维度的坐标标签在任何广播操作之前对齐数组,而不仅仅是形状。
举个例子,让我们考虑两个非常简单的数组——一个从 0 到 19 递增,另一个是 1 的块,两者都重塑为 (4, 5)
。在 numpy 中将它们彼此相减很简单,因为它们的形状相同:
In [15]: arr1 = np.arange(20).reshape((4, 5))
In [16]: arr2 = np.ones(shape=(4, 5))
In [17]: arr1 - arr2
Out[17]:
array([[-1., 0., 1., 2., 3.],
[ 4., 5., 6., 7., 8.],
[ 9., 10., 11., 12., 13.],
[14., 15., 16., 17., 18.]])
xarray 等效项也很简单,但我们必须引入维度名称和坐标。假设您的压力水平以 10 hPa 的增量递减至 STP,并且纬度也以 10 递增,从 20 到 60:
In [18]: pressures = np.array([71.325, 81.325, 91.325, 101.325])
In [19]: lats = np.array([20, 30, 40, 50, 60])
In [20]: da1 = xr.DataArray(arr1, dims=['plev', 'lat'], coords=[pressures, lats])
In [21]: da2 = xr.DataArray(arr2, dims=['plev', 'lat'], coords=[pressures, lats])
In [22]: da2
Out[22]:
<xarray.DataArray (plev: 4, lat: 5)>
array([[1., 1., 1., 1., 1.],
[1., 1., 1., 1., 1.],
[1., 1., 1., 1., 1.],
[1., 1., 1., 1., 1.]])
Coordinates:
* plev (plev) float64 71.33 81.33 91.33 101.3
* lat (lat) int64 20 30 40 50 60
In [23]: da1
Out[23]:
<xarray.DataArray (plev: 4, lat: 5)>
array([[ 0, 1, 2, 3, 4],
[ 5, 6, 7, 8, 9],
[10, 11, 12, 13, 14],
[15, 16, 17, 18, 19]])
Coordinates:
* plev (plev) float64 71.33 81.33 91.33 101.3
* lat (lat) int64 20 30 40 50 60
这些数组是对齐的,所以减去它们很简单:
In [24]: da1 - da2
Out[24]:
<xarray.DataArray (plev: 4, lat: 5)>
array([[-1., 0., 1., 2., 3.],
[ 4., 5., 6., 7., 8.],
[ 9., 10., 11., 12., 13.],
[14., 15., 16., 17., 18.]])
Coordinates:
* plev (plev) float64 71.33 81.33 91.33 101.3
* lat (lat) int64 20 30 40 50 60
但是因为 xarray 依赖于这些坐标完全对齐,依赖浮点坐标可能会很棘手。如果我们在压力水平维度上引入一个小错误,数组就不会对齐,我们会看到类似于您的结果:
In [25]: da2 = xr.DataArray(arr2, dims=['plev', 'lat'], coords=[pressures + 1e-8, lats])
In [26]: da1 - da2
Out[26]:
<xarray.DataArray (plev: 0, lat: 5)>
array([], shape=(0, 5), dtype=float64)
Coordinates:
* plev (plev) float64
* lat (lat) int64 20 30 40 50 60
这种类型的未对齐可能由于各种原因而发生,包括通过存储的往返数据,其中编码的变化会导致微小的数字错误,这些错误显示为未对齐的数据。
您可以使用 join='exact'
参数检查这是否是 xr.align
的问题:
In [27]: xr.align(da1, da2, join='exact')
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-29-612460e52308> in <module>
----> 1 xr.align(da1, da2, join='exact')
~/miniconda3/envs/myenv/lib/python3.9/site-packages/xarray/core/alignment.py in align(join, copy, indexes, exclude, fill_value, *objects)
320 ):
321 if join == "exact":
--> 322 raise ValueError(f"indexes along dimension {dim!r} are not equal")
323 joiner = _get_joiner(join, type(matching_indexes[0]))
324 index = joiner(matching_indexes)
ValueError: indexes along dimension 'plev' are not equal
要解决此问题,您可以尝试将坐标四舍五入为已知的坐标公差:
In [32]: da2['plev'] = np.round(da2['plev'], 3)
In [33]: da1 - da2
Out[33]:
<xarray.DataArray (plev: 4, lat: 5)>
array([[-1., 0., 1., 2., 3.],
[ 4., 5., 6., 7., 8.],
[ 9., 10., 11., 12., 13.],
[14., 15., 16., 17., 18.]])
Coordinates:
* plev (plev) float64 71.33 81.33 91.33 101.3
* lat (lat) int64 20 30 40 50 60
或者,您可以设置一个 positional/integer 坐标,将实际压力水平作为非索引坐标:
In [42]: da1
Out[42]:
<xarray.DataArray (plev_ind: 4, lat: 5)>
array([[ 0, 1, 2, 3, 4],
[ 5, 6, 7, 8, 9],
[10, 11, 12, 13, 14],
[15, 16, 17, 18, 19]])
Coordinates:
plev (plev_ind) float64 71.33 81.33 91.33 101.3
* lat (lat) int64 20 30 40 50 60
* plev_ind (plev_ind) int64 71325 81325 91325 101325
In [43]: da2
Out[43]:
<xarray.DataArray (plev_ind: 4, lat: 5)>
array([[1., 1., 1., 1., 1.],
[1., 1., 1., 1., 1.],
[1., 1., 1., 1., 1.],
[1., 1., 1., 1., 1.]])
Coordinates:
plev (plev_ind) float64 71.33 81.33 91.33 101.3
* lat (lat) int64 20 30 40 50 60
* plev_ind (plev_ind) int64 71325 81325 91325 101325
In [44]: da1 - da2
Out[44]:
<xarray.DataArray (plev_ind: 4, lat: 5)>
array([[-1., 0., 1., 2., 3.],
[ 4., 5., 6., 7., 8.],
[ 9., 10., 11., 12., 13.],
[14., 15., 16., 17., 18.]])
Coordinates:
* lat (lat) int64 20 30 40 50 60
* plev_ind (plev_ind) int64 71325 81325 91325 101325