numpy 前向填充条件
numpy forward fill with condition
我有一个像这样的带有零的 numpy 数组。
a = np.array([3., 0., 2., 3., 0., 3., 3., 3., 0., 3., 3., 0., 3., 0., 0., 0., 0.,
3., 3., 0., 3., 3., 0., 3., 0., 3., 0., 0., 0., 3., 0., 3., 3., 0.,
3., 3., 0., 0., 3., 0., 0., 0., 3., 0., 3., 3., 3., 3., 3., 3., 3.,
3., 3., 3., 3., 3., 3., 4., 3., 0., 3., 3., 3., 3., 3., 3., 3., 0.,
0., 0., 0., 3., 0., 0., 3., 0., 0., 0., 3., 3., 3., 3., 3., 3., 3.,
3., 0., 3., 3., 3., 3., 3., 0., 3., 3., 3., 3., 0., 0., 0., 3., 3.,
3., 0., 3., 3., 3., 5., 3., 3., 3., 3., 3., 3., 3., 0., 3., 0., 3.,
3., 0., 0., 0., 3., 3., 3., 3., 0., 3., 3., 3., 3., 3., 3., 3., 3.,
3., 3., 3., 3., 0., 3., 3., 3., 3., 3., 3., 0., 3., 3., 3., 3., 3.,
3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 0., 3., 0., 3.,
3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 0., 3., 3., 3., 3.,
3., 3., 3., 3., 3., 3., 3., 3., 0., 3., 3., 0., 0., 3., 0., 0., 3.,
0., 3., 3., 0., 3., 3., 0., 0., 3., 3., 3., 3., 3., 3., 3., 0., 3.,
3., 3., 3., 3.])
我需要用以前的值替换零(向前填充) condition.If 两个非零数字之间的零数小于或等于 2,需要向前填充零。
例如,
1)如果我考虑3., 0., 2.
这三个数字,非零数字之间的零数是1.This应该补3.
2) 如果我考虑 3., 0., 0., 0., 0.,3., 3.
这些数字,3 之间的零数大于 2.so 它将保持原样。
我无法想象矢量化的方式,所以我只搜索了一个程序化的方式:
def ffill(arr, mx):
"""Forward fill 0 values in arr with a max of mx consecutive 0 values"""
first = None # first index of a sequence of 0 to fill
prev = None # previous value to use
for i, val in enumerate(arr):
if val == 0.: # process a null value
if prev is not None:
if first is None:
first = i
elif i - first >= mx: # to much consecutive 0: give up
prev = None
first = None
else:
if first is not None: # there was a sequence to fill
arr[first:i] = prev
first = None
这是一种将前向填充 window 作为参数来处理一般情况的方法 -
# @Divakar
def numpy_binary_closing(mask,W):
# Define kernel
K = np.ones(W)
# Perform dilation and threshold at 1
dil = np.convolve(mask,K)>=1
# Perform erosion on the dilated mask array and threshold at given threshold
dil_erd = np.convolve(dil,K)>= W
return dil_erd[W-1:-W+1]
def ffill_windowed(a, W):
mask = a!=0
mask_ext = numpy_binary_closing(mask,W)
p = mask_ext & ~mask
idx = np.maximum.accumulate(mask*np.arange(len(mask)))
out = a.copy()
out[p] = out[idx[p]]
return out
解释: 第一部分执行二进制闭合操作,这在图像处理领域中得到了很好的探索。因此,在我们的例子中,我们将从基于 window 参数的非零蒙版和图像关闭开始。我们得到了所有我们需要通过获取前向填充索引来填充的地方的索引,在 中进行了探索。我们根据先前获得的封闭掩码输入新值。仅此而已!
样品运行 -
In [142]: a
Out[142]: array([2, 0, 3, 0, 0, 4, 0, 0, 0, 5, 0])
In [143]: ffill_windowed(a, W=2)
Out[143]: array([2, 2, 3, 0, 0, 4, 0, 0, 0, 5, 0])
In [144]: ffill_windowed(a, W=3)
Out[144]: array([2, 2, 3, 3, 3, 4, 0, 0, 0, 5, 0])
In [146]: ffill_windowed(a, W=4)
Out[146]: array([2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 0])
在这些情况下,提出纯矢量化方法似乎并不简单(至少在这种情况下可以这么说),我们可以使用 numba
将您的代码编译为 C-level
.这是使用 numba 的 nopython
模式的一种方法:
import numba
@numba.njit('int64[:](int64[:],uintc)') #change accordingly
def conditional_ffill(a, w):
c=0
last_non_zero = a[0]
out = np.copy(a)
for i in range(len(a)):
if a[i]==0:
c+=1
elif c>0 and c<w:
out[i-c:i] = last_non_zero
c=0
last_non_zero=a[i]
return out
正在检查 divakar 的测试阵列:
a = np.array([2, 0, 3, 0, 0, 4, 0, 0, 0, 5, 0])
conditional_ffill(a, w=1)
# array([2, 0, 3, 0, 0, 4, 0, 0, 0, 5, 0])
conditional_ffill(a, w=2)
# array([2, 2, 3, 0, 0, 4, 0, 0, 0, 5, 0])
conditional_ffill(a, w=3)
# array([2, 2, 3, 3, 3, 4, 0, 0, 0, 5, 0])
conditional_ffill(a, w=4)
# array([2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 0])
更大数组的计时:
a_large = np.tile(a, 10000)
%timeit ffill_windowed(a_large, 3)
# 1.39 ms ± 68.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
%timeit conditional_ffill(a_large, 3)
# 150 µs ± 862 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
我有一个像这样的带有零的 numpy 数组。
a = np.array([3., 0., 2., 3., 0., 3., 3., 3., 0., 3., 3., 0., 3., 0., 0., 0., 0.,
3., 3., 0., 3., 3., 0., 3., 0., 3., 0., 0., 0., 3., 0., 3., 3., 0.,
3., 3., 0., 0., 3., 0., 0., 0., 3., 0., 3., 3., 3., 3., 3., 3., 3.,
3., 3., 3., 3., 3., 3., 4., 3., 0., 3., 3., 3., 3., 3., 3., 3., 0.,
0., 0., 0., 3., 0., 0., 3., 0., 0., 0., 3., 3., 3., 3., 3., 3., 3.,
3., 0., 3., 3., 3., 3., 3., 0., 3., 3., 3., 3., 0., 0., 0., 3., 3.,
3., 0., 3., 3., 3., 5., 3., 3., 3., 3., 3., 3., 3., 0., 3., 0., 3.,
3., 0., 0., 0., 3., 3., 3., 3., 0., 3., 3., 3., 3., 3., 3., 3., 3.,
3., 3., 3., 3., 0., 3., 3., 3., 3., 3., 3., 0., 3., 3., 3., 3., 3.,
3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 0., 3., 0., 3.,
3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 3., 0., 3., 3., 3., 3.,
3., 3., 3., 3., 3., 3., 3., 3., 0., 3., 3., 0., 0., 3., 0., 0., 3.,
0., 3., 3., 0., 3., 3., 0., 0., 3., 3., 3., 3., 3., 3., 3., 0., 3.,
3., 3., 3., 3.])
我需要用以前的值替换零(向前填充) condition.If 两个非零数字之间的零数小于或等于 2,需要向前填充零。
例如,
1)如果我考虑3., 0., 2.
这三个数字,非零数字之间的零数是1.This应该补3.
2) 如果我考虑 3., 0., 0., 0., 0.,3., 3.
这些数字,3 之间的零数大于 2.so 它将保持原样。
我无法想象矢量化的方式,所以我只搜索了一个程序化的方式:
def ffill(arr, mx):
"""Forward fill 0 values in arr with a max of mx consecutive 0 values"""
first = None # first index of a sequence of 0 to fill
prev = None # previous value to use
for i, val in enumerate(arr):
if val == 0.: # process a null value
if prev is not None:
if first is None:
first = i
elif i - first >= mx: # to much consecutive 0: give up
prev = None
first = None
else:
if first is not None: # there was a sequence to fill
arr[first:i] = prev
first = None
这是一种将前向填充 window 作为参数来处理一般情况的方法 -
# @Divakar
def numpy_binary_closing(mask,W):
# Define kernel
K = np.ones(W)
# Perform dilation and threshold at 1
dil = np.convolve(mask,K)>=1
# Perform erosion on the dilated mask array and threshold at given threshold
dil_erd = np.convolve(dil,K)>= W
return dil_erd[W-1:-W+1]
def ffill_windowed(a, W):
mask = a!=0
mask_ext = numpy_binary_closing(mask,W)
p = mask_ext & ~mask
idx = np.maximum.accumulate(mask*np.arange(len(mask)))
out = a.copy()
out[p] = out[idx[p]]
return out
解释: 第一部分执行二进制闭合操作,这在图像处理领域中得到了很好的探索。因此,在我们的例子中,我们将从基于 window 参数的非零蒙版和图像关闭开始。我们得到了所有我们需要通过获取前向填充索引来填充的地方的索引,在
样品运行 -
In [142]: a
Out[142]: array([2, 0, 3, 0, 0, 4, 0, 0, 0, 5, 0])
In [143]: ffill_windowed(a, W=2)
Out[143]: array([2, 2, 3, 0, 0, 4, 0, 0, 0, 5, 0])
In [144]: ffill_windowed(a, W=3)
Out[144]: array([2, 2, 3, 3, 3, 4, 0, 0, 0, 5, 0])
In [146]: ffill_windowed(a, W=4)
Out[146]: array([2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 0])
在这些情况下,提出纯矢量化方法似乎并不简单(至少在这种情况下可以这么说),我们可以使用 numba
将您的代码编译为 C-level
.这是使用 numba 的 nopython
模式的一种方法:
import numba
@numba.njit('int64[:](int64[:],uintc)') #change accordingly
def conditional_ffill(a, w):
c=0
last_non_zero = a[0]
out = np.copy(a)
for i in range(len(a)):
if a[i]==0:
c+=1
elif c>0 and c<w:
out[i-c:i] = last_non_zero
c=0
last_non_zero=a[i]
return out
正在检查 divakar 的测试阵列:
a = np.array([2, 0, 3, 0, 0, 4, 0, 0, 0, 5, 0])
conditional_ffill(a, w=1)
# array([2, 0, 3, 0, 0, 4, 0, 0, 0, 5, 0])
conditional_ffill(a, w=2)
# array([2, 2, 3, 0, 0, 4, 0, 0, 0, 5, 0])
conditional_ffill(a, w=3)
# array([2, 2, 3, 3, 3, 4, 0, 0, 0, 5, 0])
conditional_ffill(a, w=4)
# array([2, 2, 3, 3, 3, 4, 4, 4, 4, 5, 0])
更大数组的计时:
a_large = np.tile(a, 10000)
%timeit ffill_windowed(a_large, 3)
# 1.39 ms ± 68.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
%timeit conditional_ffill(a_large, 3)
# 150 µs ± 862 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)