给定 Python 分布中的样本列表，如何计算值的概率？

Question

不确定这是否属于统计数据，但我正在尝试使用 Python 来实现这一点。我基本上只有一个整数列表：

data = [300,244,543,1011,300,125,300 ... ]

而且我想知道在给定此数据的情况下某个值出现的概率。我使用 matplotlib 绘制了数据的直方图并获得了这些：

在第一张图中，数字表示序列中的字符数量。在第二张图中，它是以毫秒为单位的测量时间量。最小值大于零，但不一定有最大值。这些图表是使用数百万个示例创建的，但我不确定我是否可以对分布做出任何其他假设。鉴于我有几百万个值示例，我想知道新值的概率。在第一张图中，我有几百万个不同长度的序列。例如，想知道 200 长度的概率。

我知道对于连续分布，任何精确点的概率都应该为零，但是给定一系列新值，我需要能够说出每个值的可能性有多大。我查看了一些 numpy/scipy 概率密度函数，但我不确定从中选择哪个或一旦我运行类似 scipy.stats.norm.pdf(data ).似乎不同的概率密度函数将以不同的方式拟合数据。鉴于直方图的形状，我不确定如何决定使用哪个。

Answer 1

这是一种可能的解决方案。您计算原始列表中每个值的出现次数。给定值的未来概率是它过去的出现率，即过去出现的次数除以原始列表的长度。在 Python 中非常简单：

x 是给定的值列表

from collections import Counter
c = Counter(x)

def probability(a):
    # returns the probability of a given number a
    return float(c[a]) / len(x)

Answer 2

由于您似乎没有考虑特定的分布，但是您可能有很多数据样本，所以我建议使用非参数密度估计方法。您描述的一种数据类型（以毫秒为单位的时间）显然是连续的，并且您已经提到的直方图是连续随机变量的概率密度函数（PDF）非参数估计的一种方法。但是，正如您将在下面看到的，Kernel Density Estimation (KDE) 可能会更好。您描述的第二种数据类型（序列中的字符数）是离散类型的。在这里，核密度估计也很有用，可以看作是一种平滑技术，适用于离散变量的所有值没有足够数量的样本的情况。

估计密度

下面的示例展示了如何首先从 2 个高斯分布的混合中生成数据样本，然后应用核密度估计来找到概率密度函数：

import numpy as np
import matplotlib.pyplot as plt
import matplotlib.mlab as mlab
from sklearn.neighbors import KernelDensity

# Generate random samples from a mixture of 2 Gaussians
# with modes at 5 and 10
data = np.concatenate((5 + np.random.randn(10, 1),
                       10 + np.random.randn(30, 1)))

# Plot the true distribution
x = np.linspace(0, 16, 1000)[:, np.newaxis]
norm_vals = mlab.normpdf(x, 5, 1) * 0.25 + mlab.normpdf(x, 10, 1) * 0.75
plt.plot(x, norm_vals)

# Plot the data using a normalized histogram
plt.hist(data, 50, normed=True)

# Do kernel density estimation
kd = KernelDensity(kernel='gaussian', bandwidth=0.75).fit(data)

# Plot the estimated densty
kd_vals = np.exp(kd.score_samples(x))
plt.plot(x, kd_vals)

# Show the plots
plt.show()

这将产生以下图表，其中真实分布显示为蓝色，直方图显示为绿色，使用 KDE 估计的 PDF 显示为红色：

如您所见，在这种情况下，直方图近似的 PDF 不是很有用，而 KDE 提供了更好的估计。但是，如果数据样本数量较多且 bin 大小选择得当，直方图也可能产生良好的估计。

对于 KDE，您可以调整的参数是内核和带宽。您可以将内核视为估计 PDF 的构建块，Scikit Learn 中提供了多个内核函数：高斯、tophat、epanechnikov、指数、线性、余弦。更改带宽允许您调整偏差方差权衡。更大的带宽会导致偏差增加，如果您的数据样本较少，这很好。较小的带宽会增加方差（估计中包含的样本较少），但当有更多样本可用时会给出更好的估计。

计算概率

对于 PDF，概率是通过计算一系列值的积分获得的。正如您所注意到的，这将导致特定值的概率为 0。

Scikit Learn 似乎没有用于计算概率的内置函数。但是，很容易估计 PDF 在一定范围内的积分。我们可以通过在范围内多次评估 PDF 并将获得的值乘以每个评估点之间的步长来求和。在下面的示例中，N 个样本是通过步骤 step.

获得的

# Get probability for range of values
start = 5  # Start of the range
end = 6    # End of the range
N = 100    # Number of evaluation points 
step = (end - start) / (N - 1)  # Step size
x = np.linspace(start, end, N)[:, np.newaxis]  # Generate values in the range
kd_vals = np.exp(kd.score_samples(x))  # Get PDF values for each x
probability = np.sum(kd_vals * step)  # Approximate the integral of the PDF
print(probability)

请注意，kd.score_samples 生成数据样本的对数似然。因此，需要np.exp来获得似然。

可以使用内置 SciPy 积分方法执行相同的计算，这将给出更准确的结果：

from scipy.integrate import quad
probability = quad(lambda x: np.exp(kd.score_samples(x)), start, end)[0]

例如，对于一个运行，第一种方法计算的概率为 0.0859024655305，而第二种方法产生 0.0850974209996139。

Answer 3

好的，我将此作为起点，但估计密度是一个非常广泛的话题。对于涉及序列中字符数量的案例，我们可以使用 经验概率 从直接的频率论者角度对此进行建模。在这里，概率本质上是百分比概念的概括。在我们的模型中，样本space是离散的，都是正整数。好吧，然后您只需计算发生次数并除以事件总数即可获得对概率的估计。在我们观察到零的任何地方，我们对概率的估计都是零。

>>> samples = [1,1,2,3,2,2,7,8,3,4,1,1,2,6,5,4,8,9,4,3]
>>> from collections import Counter
>>> counts = Counter(samples)
>>> counts
Counter({1: 4, 2: 4, 3: 3, 4: 3, 8: 2, 5: 1, 6: 1, 7: 1, 9: 1})
>>> total = sum(counts.values())
>>> total
20
>>> probability_mass = {k:v/total for k,v in counts.items()}
>>> probability_mass
{1: 0.2, 2: 0.2, 3: 0.15, 4: 0.15, 5: 0.05, 6: 0.05, 7: 0.05, 8: 0.1, 9: 0.05}
>>> probability_mass.get(2,0)
0.2
>>> probability_mass.get(12,0)
0

现在，对于您的计时数据，将其建模为连续分布更为自然。您应该采用非参数方法，而不是使用假设您的数据具有某种分布然后将该分布拟合到您的数据的参数方法。一种直接的方法是使用 kernel density estimate。您可以简单地将其视为一种平滑直方图以提供连续概率密度函数的方法。有几个库可用。也许对于单变量数据最直接的是 scipy's:

>>> import scipy.stats
>>> kde = scipy.stats.gaussian_kde(samples)
>>> kde.pdf(2)
array([ 0.15086911])

要获得某个时间间隔内观测值的概率：

>>> kde.integrate_box_1d(1,2)
0.13855869478828692

给定 Python 分布中的样本列表，如何计算值的概率？

How to compute the probability of a value given a list of samples from a distribution in Python?

python

probability

matplotlib

scipy

probability-density

估计密度

计算概率