numpy.median 在屏蔽数组上的意外行为
unexpected behaviour of numpy.median on masked arrays
我有一个关于 numpy.median() 在使用 numpy.ma.masked_array() 创建的屏蔽数组上的行为的问题。
正如我从调试自己的代码中了解到的那样,numpy.median() 在屏蔽数组上无法按预期工作(有关问题的定义,请参阅 Using numpy.median on a masked array)
提供的答案是:
说明:如果我没记错的话,np.median不支持子类,所以在np.ma.MaskedArray.[=14=上无法正常工作]
因此得出的结论是,为了计算掩码数组中元素的中值,需要使用 numpy.ma.median()
,因为这是专用于掩码数组的中值函数。
我的问题在于我花了相当多的时间才找到这个问题,因为没有办法知道这个问题。
尝试通过 numpy.median() 计算掩码数组的中值时,没有出现警告或异常。
这个函数返回的答案不是预期的,当人们没有意识到这一点时会导致严重的问题。
有谁知道这是否会被视为错误?
在我看来,预期的行为应该是在屏蔽数组上使用 numpy.median 会引发某种异常。
有什么想法吗???
下面的测试脚本显示了在屏蔽数组 上使用 numpy.median 的意外行为(请注意,有效元素的正确和预期中值为 2.5!!!) :
In [1]: import numpy as np
In [2]: test = np.array([1, 2, 3, 4, 100, 100, 100, 100])
In [3]: valid_elements = np.array([1, 1, 1, 1, 0, 0, 0, 0], dtype=np.bool)
In [4]: testm = np.ma.masked_array(test, ~valid_elements)
In [5]: testm
Out[5]:
masked_array(data = [1 2 3 4 -- -- -- --],
mask = [False False False False True True True True],
fill_value = 999999)
In [6]: np.median(test)
Out[6]: 52.0
In [7]: np.median(test[valid_elements])
Out[7]: 2.5
In [8]: np.median(testm)
Out[8]: 4.0
In [9]: np.ma.median(testm)
Out[9]: 2.5
Does anyone know if this might be considered a bug?
嗯,是个Bug!我几个月前在他们的问题跟踪器 (Link to the bug report) 上发布了它。
此行为的原因是 np.median
使用输入数组的 partition
方法,但 np.ma.MaskedArray
doesn't override the partition
method. So when arr.partition
在 np.median
中调用它只是默认为基本numpy.ndarray.partition
方法(对于掩码数组来说是伪造的!)。
我有一个关于 numpy.median() 在使用 numpy.ma.masked_array() 创建的屏蔽数组上的行为的问题。
正如我从调试自己的代码中了解到的那样,numpy.median() 在屏蔽数组上无法按预期工作(有关问题的定义,请参阅 Using numpy.median on a masked array)
提供的答案是:
说明:如果我没记错的话,np.median不支持子类,所以在np.ma.MaskedArray.[=14=上无法正常工作]
因此得出的结论是,为了计算掩码数组中元素的中值,需要使用 numpy.ma.median()
,因为这是专用于掩码数组的中值函数。
我的问题在于我花了相当多的时间才找到这个问题,因为没有办法知道这个问题。
尝试通过 numpy.median() 计算掩码数组的中值时,没有出现警告或异常。
这个函数返回的答案不是预期的,当人们没有意识到这一点时会导致严重的问题。
有谁知道这是否会被视为错误?
在我看来,预期的行为应该是在屏蔽数组上使用 numpy.median 会引发某种异常。
有什么想法吗???
下面的测试脚本显示了在屏蔽数组 上使用 numpy.median 的意外行为(请注意,有效元素的正确和预期中值为 2.5!!!) :
In [1]: import numpy as np
In [2]: test = np.array([1, 2, 3, 4, 100, 100, 100, 100])
In [3]: valid_elements = np.array([1, 1, 1, 1, 0, 0, 0, 0], dtype=np.bool)
In [4]: testm = np.ma.masked_array(test, ~valid_elements)
In [5]: testm
Out[5]:
masked_array(data = [1 2 3 4 -- -- -- --],
mask = [False False False False True True True True],
fill_value = 999999)
In [6]: np.median(test)
Out[6]: 52.0
In [7]: np.median(test[valid_elements])
Out[7]: 2.5
In [8]: np.median(testm)
Out[8]: 4.0
In [9]: np.ma.median(testm)
Out[9]: 2.5
Does anyone know if this might be considered a bug?
嗯,是个Bug!我几个月前在他们的问题跟踪器 (Link to the bug report) 上发布了它。
此行为的原因是 np.median
使用输入数组的 partition
方法,但 np.ma.MaskedArray
doesn't override the partition
method. So when arr.partition
在 np.median
中调用它只是默认为基本numpy.ndarray.partition
方法(对于掩码数组来说是伪造的!)。