SPSS 版本 23,混合模块:最大虚拟变量?

SPSS version 23, MIXED module: maximum dummy variables?

我正在使用 MIXED 例程,重复测量。我有 10 个虚拟变量 (0/1) 和 8 个用于固定效果的缩放变量。结果不断表明其中一个虚拟变量是多余的。我试着改变列出虚拟变量和缩放变量的顺序。通常最后列出的虚拟变量被标记为冗余。模型中应包含的虚拟变量是否有最大数量?八个虚拟变量指的是一个国家的 8 个地理区域。

要了解为什么 SPSS 'kicks out' 虚拟变量之一,您应该查看这些虚拟变量的来源。

假设我们有一个属于对象样本的依赖 y。这些对象来自 8 个区域,x。在平面回归模型中,我们对 yx 之间的关系建模:

y = a + bx + e。

我们想知道b的值。但是 x 是一个名义变量,所以类别或区域不是数字,而是名称。名称不符合上述等式。

你可能已经将 x 重新编码为假人 x1, x2x8。现在查看数据中的记录及其 x 和虚拟变量的分数。这是一条记录的示例:

x   x1  x2  x3  x4  x5  x6  x7  x8 
8    0   0   0   0   0   0   0   1  

如果你一个一个地看虚拟变量,你会得到 x7,你知道前 7 个是全零。对于此记录,您因此已经知道 x8 必须为 1。这就是 SPSS 在 'kicks out' 冗余变量时的意思。这种现象称为完全共线性。您添加到模型的最后一个虚拟人中的信息是多余的,因为它已经在那里了。

总而言之:省去其中一个假人。您遗漏的虚拟变量将用作模型中的参考类别。对于其他每个假人,您将计算系数,该系数告诉您具有 x 的给定 value/category 的记录或对象与遗漏的参考类别有多大差异.

有多种不同的方法可以使用均值作为参考而不是其中一个类别来对虚拟变量进行编码。看看dummy coding on Wikipedia.

我也喜欢 this article,它解释了自由度的工作原理。虽然我之前没有提到这个术语,但它确实触及了虚拟编码如何工作的相同想法。