从骨灰盒中绘制的 Numpy

Numpy drawing from urn

想运行在numpy中做一个比较简单的随机抽取,但是找不到好的表达方式。 我认为最好的说法是形容它是从骨灰盒中取出来的,没有更换。我有一个有 k 种颜色的骨灰盒,还有 n_k 种颜色的球。我想画m个球,我知道每种颜色有多少个球。

我目前的尝试

np.bincount(np.random.permutation(np.repeat(np.arange(k), n_k))[:m], minlength=k)

这里,n_k 是一个长度为 k 的数组,其中包含球的数量。

好像相当于 np.bincount(np.random.choice(k, m, n_k / n_k.sum(), minlength=k)

哪个好一点,但仍然不是很好。

以下应该有效:

def make_sampling_arr(n_k):
    out = [ x for s in [ [i] * n_k[i] for i in range(len(n_k)) ] for x in s ]
    return out

np.random.choice(make_sampling_arr(n_k), m)

您想要的是 multivariate hypergeometric distribution 的实现。 我不知道 numpy 或 scipy 中有一个,但它可能已经存在于某处。

我为 numpy 1.18.0 贡献了多元超几何分布的实现;参见 numpy.random.Generator.multivariate_hypergeometric

例如,要从一个装有 12 个红色、4 个绿色和 18 个蓝色弹珠的瓮中抽取 15 个样本,并重复该过程 10 次:

In [4]: import numpy as np

In [5]: rng = np.random.default_rng()

In [6]: colors = [12, 4, 18]

In [7]: rng.multivariate_hypergeometric(colors, 15, size=10)                    
Out[7]: 
array([[ 5,  4,  6],
       [ 3,  3,  9],
       [ 6,  2,  7],
       [ 7,  2,  6],
       [ 3,  0, 12],
       [ 5,  2,  8],
       [ 6,  2,  7],
       [ 7,  1,  7],
       [ 8,  1,  6],
       [ 6,  1,  8]])

这个答案的其余部分现在已经过时,但我会留给后代(无论那意味着什么......)。


您可以通过重复调用 numpy.random.hypergeometric 来实现它。这是否会比您的实施更有效取决于有多少种颜色以及每种颜色有多少球。

例如,这里有一个脚本,它打印从包含三种颜色(红色、绿色和蓝色)的瓮中绘制的结果:

from __future__ import print_function

import numpy as np


nred = 12
ngreen = 4
nblue = 18

m = 15

red = np.random.hypergeometric(nred, ngreen + nblue, m)
green = np.random.hypergeometric(ngreen, nblue, m - red)
blue = m - (red + green)

print("red:   %2i" % red)
print("green: %2i" % green)
print("blue:  %2i" % blue)

示例输出:

red:    6
green:  1
blue:   8

以下函数概括为选择 m 个球,给定数组 colors 保存每种颜色的数量:

def sample(m, colors):
    """
    Parameters
    ----------
    m : number balls to draw from the urn
    colors : one-dimensional array of number balls of each color in the urn

    Returns
    -------
    One-dimensional array with the same length as `colors` containing the
    number of balls of each color in a random sample.
    """

    remaining = np.cumsum(colors[::-1])[::-1]
    result = np.zeros(len(colors), dtype=np.int)
    for i in range(len(colors)-1):
        if m < 1:
            break
        result[i] = np.random.hypergeometric(colors[i], remaining[i+1], m)
        m -= result[i]
    result[-1] = m
    return result

例如,

>>> sample(10, [2, 4, 8, 16])
array([2, 3, 1, 4])