在计算二维 Numpy 数组的逐行移动平均值时处理 np.NaN

Question

我正在尝试获取一个数组，其中包含 二维 numpy 数组 的行的移动平均数，基于某个 'window'（即平均中包含的行数）和 'offset'。我想出了下面我知道效率不高的代码：

import numpy as np
def f(array, window, offset):
    x = np.empty(array.shape)
    x[:,:] = np.NaN
    for row_num in range(array.shape[0]):
        first_row = row_num - window - offset
        last_row = row_num - offset + 1
        if first_row >= 0:
            x[row_num] = np.nanmean(array[first_row:last_row], axis=0)
    return x

我找到了一个潜在的解决方案 here，在下面针对我的代码进行了改编：

import math
from scipy.ndimage import uniform_filter
def g(array, window, offset):
    return uniform_filter(array, size=(window+1,1), mode='nearest', origin=(math.ceil((window+1)/2-1),0))

然而，这个解决方案有 3 个问题：

首先，我不确定如何实施 'offset'
其次，我不确定它是否确实更高效
第三，也是最重要的，当输入数组包含np.nan时，它不起作用。找到 np.nan 的那一刻，它会在移动平均线中被拖下，而不是遵循 np.nan 均值行为。

是否有一种有效的方法来实现我想要达到的目标？

更新

按照 Ehsan 的建议，我已经实现了下面的代码（稍作修改），它作为我的原始代码用于任何大于 0 的偏移量：

from skimage.util import view_as_windows
def h(array, window, offset):
    return np.vstack(([[np.NaN]*array.shape[-1]]*(window+offset),np.vstack(np.nanmean(view_as_windows(array,(window+1,array.shape[-1])),-2)[:-offset])))

我只是不确定如何让它适用于任何偏移量（特别是偏移量=0）。另外，这个解决方案似乎比原来的解决方案消耗更多时间：

a = np.arange(10*11).reshape(10,11)

%timeit f(a, 5, 2)
%timeit h(a, 5, 2)
>>> 36.6 µs ± 709 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
>>> 67.5 µs ± 2.34 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

我想知道是否有更省时的替代方法

Answer 1

这将为您提供与您的代码相同的输出，但我认为您可能需要重新考虑 last_row 定义中的额外 +1，因为它会跳过最后一行和您实际的 window 大小为 window+1:

from skimage.util import view_as_windows
def f(array, window, offset):
    return np.vstack(([[np.NaN]*array.shape[-1]]*(window+offset),np.vstack(np.nanmean(view_as_windows(array,(window+1,array.shape[-1])),-2)[:array.shape[0]-window-offset])))

示例输出：

a = np.arange(7*6).reshape(7,6)
f(a, 2, 1)
#[[nan nan nan nan nan nan]
# [nan nan nan nan nan nan]
# [nan nan nan nan nan nan]
# [ 6.  7.  8.  9. 10. 11.]
# [12. 13. 14. 15. 16. 17.]
# [18. 19. 20. 21. 22. 23.]
# [24. 25. 26. 27. 28. 29.]]

比较使用 benchit:

#@OP's solution
def f1(array, window, offset):
    x = np.empty(array.shape)
    x[:,:] = np.NaN
    for row_num in range(array.shape[0]):
        first_row = row_num - window - offset
        last_row = row_num - offset + 1
        if first_row >= 0:
            x[row_num] = np.nanmean(array[first_row:last_row], axis=0)
    return x
#@Ehsan's solution
def f2(array, window, offset):
    return np.vstack(([[np.NaN]*array.shape[-1]]*(window+offset),np.vstack(np.nanmean(view_as_windows(array,(window+1,array.shape[-1])),-2)[:array.shape[0]-window-offset])))

in_ = {n:[np.arange(n*10).reshape(n,10), 2,2] for n in [10,100,500,1000,4000]}

建议的解决方案 f2 明显更快。您必须注意，大多数矢量化解决方案在较大的阵列上都是有效的。

在计算二维 Numpy 数组的逐行移动平均值时处理 np.NaN

Handling np.NaN When Calculating row-wise Moving Average of a 2D Numpy Array

python

numpy

scipy

moving-average

更新