对 2D numpy 数组进行子集化

Question

我在这里查看了文档和其他问题，但看来我还没有掌握在 numpy 数组中进行子集化的窍门。

我有一个 numpy 数组，为了便于论证，定义如下：

import numpy as np
a = np.arange(100)
a.shape = (10,10)
# array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
#        [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
#        [20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
#        [30, 31, 32, 33, 34, 35, 36, 37, 38, 39],
#        [40, 41, 42, 43, 44, 45, 46, 47, 48, 49],
#        [50, 51, 52, 53, 54, 55, 56, 57, 58, 59],
#        [60, 61, 62, 63, 64, 65, 66, 67, 68, 69],
#        [70, 71, 72, 73, 74, 75, 76, 77, 78, 79],
#        [80, 81, 82, 83, 84, 85, 86, 87, 88, 89],
#        [90, 91, 92, 93, 94, 95, 96, 97, 98, 99]])

现在我想选择向量 n1 和 n2 指定的 a 的行和列。例如：

n1 = range(5)
n2 = range(5)

但是当我使用时：

b = a[n1,n2]
# array([ 0, 11, 22, 33, 44])

然后只选择第一个第五个对角线元素，而不是整个 5x5 块。我找到的解决方案是这样做：

b = a[n1,:]
b = b[:,n2]
# array([[ 0,  1,  2,  3,  4],
#        [10, 11, 12, 13, 14],
#        [20, 21, 22, 23, 24],
#        [30, 31, 32, 33, 34],
#        [40, 41, 42, 43, 44]])

但我相信应该有一种方法可以只用一个命令完成这个简单的任务。

Answer 1

您可以使用 np.meshgrid 为 n1、n2 数组提供适当的形状以执行所需的索引：

In [104]: a[np.meshgrid(n1,n2, sparse=True, indexing='ij')]
Out[104]: 
array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])

或者，没有网格：

In [117]: a[np.array(n1)[:,np.newaxis], np.array(n2)[np.newaxis,:]]
Out[117]: 
array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])

文档中有一个类似的示例，解释了 integer array indexing 的工作原理。

另请参阅食谱食谱 Picking out rows and columns。

Answer 2

另一种快速构建所需索引的方法是使用 np.ix_ 函数：

>>> a[np.ix_(n1, n2)]
array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])

这提供了一种从索引序列构造开放网格的便捷方法。

Answer 3

你已经得到了一些很好的例子来说明如何做你想做的事。但是，了解正在发生的事情以及事情为何如此运作也很有用。有一些简单的规则可以在以后帮助您。

"fancy" 索引（即使用 list/sequence）和 "normal" 索引（使用切片）有很大区别。根本原因与数组是否可以 "regularly strided" 有关，因此是否需要进行复制。因此，如果我们希望能够在不复制的情况下创建 "views"，则必须区别对待任意序列。

你的情况：

import numpy as np

a = np.arange(100).reshape(10,10)
n1, n2 = np.arange(5), np.arange(5)

# Not what you want
b = a[n1, n2]  # array([ 0, 11, 22, 33, 44])

# What you want, but only for simple sequences
# Note that no copy of *a* is made!! This is a view.
b = a[:5, :5]

# What you want, but probably confusing at first. (Also, makes a copy.)
# np.meshgrid and np.ix_ are basically equivalent to this.
b = a[n1[:,None], n2[None,:]]

一维序列的花式索引基本上等同于将它们压缩在一起并使用结果进行索引。

print "Fancy Indexing:"
print a[n1, n2]

print "Manual indexing:"
for i, j in zip(n1, n2):
    print a[i, j]

但是，如果您索引的序列与您索引的数组的维度（在本例中为 2D）相匹配，则索引的处理方式不同。而不是 "zipping the two together"，numpy 使用像掩码一样的索引。

换句话说，a[[[1, 2, 3]], [[1],[2],[3]]] 的处理方式与 a[[1, 2, 3], [1, 2, 3]] 完全不同，因为您传入的 sequences/arrays 是二维的。

In [4]: a[[[1, 2, 3]], [[1],[2],[3]]]
Out[4]:
array([[11, 21, 31],
       [12, 22, 32],
       [13, 23, 33]])

In [5]: a[[1, 2, 3], [1, 2, 3]]
Out[5]: array([11, 22, 33])

更准确地说，

a[[[1, 2, 3]], [[1],[2],[3]]]

的处理方式完全相同：

i = [[1, 1, 1],
     [2, 2, 2],
     [3, 3, 3]])
j = [[1, 2, 3],
     [1, 2, 3],
     [1, 2, 3]]
a[i, j]

换句话说，输入是否为 row/column 向量是 shorthand 索引在索引中应如何重复。

np.meshgrid 和 np.ix_ 只是将 1D 序列转换为 2D 版本以进行索引的便捷方式：

In [6]: np.ix_([1, 2, 3], [1, 2, 3])
Out[6]:
(array([[1],
       [2],
       [3]]), array([[1, 2, 3]]))

类似地（sparse 参数将使其与上面的 ix_ 相同）：

In [7]: np.meshgrid([1, 2, 3], [1, 2, 3], indexing='ij')
Out[7]:
[array([[1, 1, 1],
       [2, 2, 2],
       [3, 3, 3]]),
 array([[1, 2, 3],
       [1, 2, 3],
       [1, 2, 3]])]

Answer 4

您的特定问题的用例似乎涉及图像处理。就您使用示例编辑图像产生的 numpy 数组而言，您可以使用 Python 成像库 (PIL)。

# Import Pillow:
from PIL import Image

# Load the original image:
img = Image.open("flowers.jpg")

# Crop the image
img2 = img.crop((0, 0, 5, 5))

img2 对象是生成的裁剪图像的 numpy 数组。

您可以在此处使用 Pillow package（PIL 包上的一个用户友好的分支）阅读更多关于图像处理的信息：

Answer 5

我成功地学会了一个绝妙的技巧（仅供懒人使用）是过滤器+转置+过滤器。

a = np.arange(100).reshape(10,10)
subsetA = [1,3,5,7]
a[subsetA].T[subsetA]

array([[11, 31, 51, 71],
       [13, 33, 53, 73],
       [15, 35, 55, 75],
       [17, 37, 57, 77]])

对 2D numpy 数组进行子集化

Subsetting a 2D numpy array

python

arrays

numpy

subset

multidimensional-array