解析地计算 Parzen WIndows 的偏差

Calculate Bias of Parzen WIndows analytically

我仍然无法理解特定估算器的偏差和方差实际上是什么。

我正在使用维基百科上的偏差定义：

如果我们定义kernel-density-estimates为

但是我如何将其应用于核密度估计，或者更准确地说是 Parzen Windows？有人至少可以告诉我估计密度 f_hat(x) 与偏差（和方差）的关系吗？

定性我已经知道，包含整个数据 space 的 box-window 将具有最大偏差并且没有方差，因为估计密度将只是整个训练数据集的平均值。

我想我只是自己弄明白了。在密度估计的情况下，参数 theta 是 .. drumroll ... 密度函数 f(x)。所以偏差定义为

偏差 = E[f_hat(x)] - f(x)

E[f_hat(x)]项是window函数的期望值或均值。计算它涉及一个简单的积分。

f(x)是数据的true密度函数，在现实中很可能是未知的。