akaike 信息标准 (AIC) 是否依赖于单位?

Is the akaike information criterion (AIC) unit-dependent?

AIC 的一个公式是:

AIC = 2k + n*Log(RSS/n)

直觉上,如果您向模型添加一个参数,您的 AIC 将会降低(因此您应该保留该参数),如果由于新参数导致的 2k 项的增加被 n 的减少所抵消*Log(RSS/n) 项由于残差平方和减少。但是这个 RSS 值单元不是特定的吗?因此,如果我正在为金钱建模,并且我的单位是百万美元,那么添加参数后 RSS 的变化可能非常小,并且不会抵消 2k 项的增加。相反,如果我的单位是便士,RSS 的变化会非常大,并且可以大大抵消 2k 项的增加。单位的这种任意变化将导致我决定是否保留额外参数的决定发生变化。

那么:RSS 是否必须采用标准化单位才能使 AIC 成为有用的标准?我不明白它会怎样。

不,我不这么认为(部分反驳我之前的评论)。对于最简单的情况(y = ax + b 的最小二乘回归),来自 wikipedia,RSS = Syy - a x Sxy.

根据他们在那篇文章中给出的定义,a 和 Sxy 都增长了 100 和 Syy 增长 1002 如果你改变单位y 从美元到美分。因此,在重新缩放之后,该模型的新 RSS 将是旧模型的 1002 倍。我很确定具有 k <> 2 参数的模型也有相同的结果。

因此,关键部分是 log(RSSB/RSSA) 的 AIC 差异没有任何变化。重新缩放后,RSS 将以相同的因子增长,您将获得与之前模型 A 和 B 完全相同的 AIC 差异。

编辑:

我刚找到这个 one:

"It is correct that the choice of units introduces a multiplicative constant into the likelihood. Thence the log likelihood has an additive constant which contributes (after doubling) to the AIC. The difference of AICs is unchanged."

请注意,此评论甚至讨论了 一般 情况,其中使用了确切的 log-likelihood。

我也有同样的问题,我觉得上面的现有答案可以更清楚、更直接。希望以下内容也能为其他人澄清一点。

使用 AIC 比较模型时,感兴趣的是差异。这里有问题的部分是 n*log(RSS/n)。当我们比较两个不同的模型时,我们会得到: n1*log(RSS1/n1) + 2k1 - n2*log(RSS2/n2) - 2k2

根据我们的对数恒等式,我们知道 log(a) - log(b) = log(a/b)。 AIC1 - AIC2 因此简化为:

2k1 - 2k2 + log(RSS1*n2/(RSS2*n1))

如果我们添加增益因子 G 来表示单位的变化,则差异变为:

2k1 - 2k2 + log(G*RSS1*n2/(G*RSS2*n1)) = 2k1 - 2k2 + log(RSS1*n2/(RSS2*n1))

如您所见,无论我们选择哪种单位,我们都具有相同的 AIC 差异。