GPflow分类:后验方差的解释
GPflow classification: interpretation of posterior variance
在tutorial on multiclass classification on the GPflow website, a Sparse Variational Gaussian Process (SVGP) is used on a 1D toy example. As is the case for all other GPflow models中,SVGP模型有一个方法predict_y(self, Xnew)
,它returns点Xnew
处保留数据的均值和方差。
从教程中可以清楚地看出,从 predict_y
中解压缩的第一个参数是三个 classes(单元格 [7]
和 [8]
),在下图中的第二个面板中显示为彩色线条。然而,作者没有详细说明可以从 predict_y
中解包的第二个参数,即预测的方差。在回归设置中,它的解释对我来说很清楚,因为在这种情况下后验预测分布将是高斯分布。
但是我不明白这里的解释是什么。特别是,我想知道如何使用此度量来构建误差条,表示对任何新数据点的 class 预测的不确定性。
我稍微修改了教程的代码,为下图添加了一个额外的面板:第三个面板以黑色显示最大标准偏差(从 predict_y
获得的方差的平方根)。这显然是衡量不确定性的一个很好的衡量标准,最高可能值为 0.5 可能也不是巧合,但我找不到它是如何计算的以及它代表什么。
包含所有代码的完整笔记本 here。
def plot(m):
f = plt.figure(figsize=(12,8))
a1 = f.add_axes([0.05, 0.05, 0.9, 0.5])
av = f.add_axes([0.05, 0.6, 0.9, 0.1])
a2 = f.add_axes([0.05, 0.75, 0.9, 0.1])
a3 = f.add_axes([0.05, 0.9, 0.9, 0.1])
xx = np.linspace(m.X.read_value().min()-0.3, m.X.read_value().max()+0.3, 200).reshape(-1,1)
mu, var = m.predict_f(xx)
mu, var = mu.copy(), var.copy()
p, v = m.predict_y(xx)
a3.set_xticks([])
a3.set_yticks([])
av.set_xticks([])
lty = ['-', '--', ':']
for i in range(m.likelihood.num_classes):
x = m.X.read_value()[m.Y.read_value().flatten()==i]
points, = a3.plot(x, x*0, '.')
color=points.get_color()
a1.fill_between(xx[:,0], mu[:,i] + 2*np.sqrt(var[:,i]), mu[:,i] - 2*np.sqrt(var[:,i]), alpha = 0.2)
a1.plot(xx, mu[:,i], color=color, lw=2)
a2.plot(xx, p[:,i], '-', color=color, lw=2)
av.plot(xx, np.sqrt(np.max(v[:,:], axis = 1)), c = "black", lw=2)
for ax in [a1, av, a2, a3]:
ax.set_xlim(xx.min(), xx.max())
a2.set_ylim(-0.1, 1.1)
a2.set_yticks([0, 1])
a2.set_xticks([])
plot(m)
Model.predict_y()
呼叫 Likelihood.predict_mean_and_var()
。如果您查看后一个函数 [1] 的文档,您会发现它所做的只是计算预测分布的均值和方差。即,我们首先计算边际预测分布 q(y) = \int p(y|f) q(f) df
,然后计算 q(y)
.
的均值和方差
对于高斯分布,均值和方差可以彼此独立指定,并且它们具有作为点预测和不确定性的解释。对于伯努利似然,均值和方差都完全由单个参数p
决定。分布的均值就是事件发生的概率,已经告诉我们不确定性了!方差并没有提供更多。
但是,方差是衡量不确定性的一个很好的指标,你说得对,其中越高意味着更多的不确定性。作为 p
函数的熵看起来非常相似(尽管两者在边缘附近的行为不同):
p = np.linspace(0.001, 1 - 0.001, 1000)[:, None]
q = 1 - p
plt.plot(p, -p * np.log(p) - q * np.log(q), label='entropy')
plt.plot(p, p * q, label='variance')
plt.legend()
plt.xlabel('probability')
在tutorial on multiclass classification on the GPflow website, a Sparse Variational Gaussian Process (SVGP) is used on a 1D toy example. As is the case for all other GPflow models中,SVGP模型有一个方法predict_y(self, Xnew)
,它returns点Xnew
处保留数据的均值和方差。
从教程中可以清楚地看出,从 predict_y
中解压缩的第一个参数是三个 classes(单元格 [7]
和 [8]
),在下图中的第二个面板中显示为彩色线条。然而,作者没有详细说明可以从 predict_y
中解包的第二个参数,即预测的方差。在回归设置中,它的解释对我来说很清楚,因为在这种情况下后验预测分布将是高斯分布。
但是我不明白这里的解释是什么。特别是,我想知道如何使用此度量来构建误差条,表示对任何新数据点的 class 预测的不确定性。
我稍微修改了教程的代码,为下图添加了一个额外的面板:第三个面板以黑色显示最大标准偏差(从 predict_y
获得的方差的平方根)。这显然是衡量不确定性的一个很好的衡量标准,最高可能值为 0.5 可能也不是巧合,但我找不到它是如何计算的以及它代表什么。
包含所有代码的完整笔记本 here。
def plot(m):
f = plt.figure(figsize=(12,8))
a1 = f.add_axes([0.05, 0.05, 0.9, 0.5])
av = f.add_axes([0.05, 0.6, 0.9, 0.1])
a2 = f.add_axes([0.05, 0.75, 0.9, 0.1])
a3 = f.add_axes([0.05, 0.9, 0.9, 0.1])
xx = np.linspace(m.X.read_value().min()-0.3, m.X.read_value().max()+0.3, 200).reshape(-1,1)
mu, var = m.predict_f(xx)
mu, var = mu.copy(), var.copy()
p, v = m.predict_y(xx)
a3.set_xticks([])
a3.set_yticks([])
av.set_xticks([])
lty = ['-', '--', ':']
for i in range(m.likelihood.num_classes):
x = m.X.read_value()[m.Y.read_value().flatten()==i]
points, = a3.plot(x, x*0, '.')
color=points.get_color()
a1.fill_between(xx[:,0], mu[:,i] + 2*np.sqrt(var[:,i]), mu[:,i] - 2*np.sqrt(var[:,i]), alpha = 0.2)
a1.plot(xx, mu[:,i], color=color, lw=2)
a2.plot(xx, p[:,i], '-', color=color, lw=2)
av.plot(xx, np.sqrt(np.max(v[:,:], axis = 1)), c = "black", lw=2)
for ax in [a1, av, a2, a3]:
ax.set_xlim(xx.min(), xx.max())
a2.set_ylim(-0.1, 1.1)
a2.set_yticks([0, 1])
a2.set_xticks([])
plot(m)
Model.predict_y()
呼叫 Likelihood.predict_mean_and_var()
。如果您查看后一个函数 [1] 的文档,您会发现它所做的只是计算预测分布的均值和方差。即,我们首先计算边际预测分布 q(y) = \int p(y|f) q(f) df
,然后计算 q(y)
.
对于高斯分布,均值和方差可以彼此独立指定,并且它们具有作为点预测和不确定性的解释。对于伯努利似然,均值和方差都完全由单个参数p
决定。分布的均值就是事件发生的概率,已经告诉我们不确定性了!方差并没有提供更多。
但是,方差是衡量不确定性的一个很好的指标,你说得对,其中越高意味着更多的不确定性。作为 p
函数的熵看起来非常相似(尽管两者在边缘附近的行为不同):
p = np.linspace(0.001, 1 - 0.001, 1000)[:, None]
q = 1 - p
plt.plot(p, -p * np.log(p) - q * np.log(q), label='entropy')
plt.plot(p, p * q, label='variance')
plt.legend()
plt.xlabel('probability')