为什么条件均值(条件模式)或随机效应的图看起来像这样?

Why does the plot of conditional means (conditional mode) or random effects look like this?

我正在用 R 中 lme4glmer 拟合一个随机效应模型。我觉得这个模型还不错。

我的理解是随机效应来自均值为 0 方差为 1.632 的正态分布(见上文)。所以我期望条件均值(或条件模式,通过使用 getME(modelfit, 'b') 获得)的分布应该或多或少遵循钟形曲线。 然而,当我绘制条件均值的直方图时,我发现它很奇怪,它看起来像 2 个独立的分布,由 0 分隔。图在这里:

条件模式对应的Q-Q图:

有人知道这是什么意思吗?是否有一些强大的混杂因素?或者它可以像这样吗?

@RomanLustrik 区分条件模式正态性的基本假设 和条件模式本身的估计是正确的。估计不一定是正常的;有关条件模式分布的诊断图,请参阅 ?qqmath.ranef.mer。如果您的条件模式分布与正态分布相去甚远,那么您可能确实有问题。不幸的是,放宽正态性假设会使建模变得更加困难。例如,您可能能够使用潜在混合模型,假设条件模式是从两个法线的混合中提取的——但我不知道实现这个的 R 包的副手;如果我打算这样做,我可能会使用像 JAGS 或 Stan 这样的工具箱来实现它。

在你朝那个方向前进之前,重要的是要注意你的数据的特征(每组大约 2 个伯努利观测值)使得默认的拉普拉斯近似预计是 非常 坏的。尝试 nAGQ=10(或更高);它会大大减慢您的拟合速度,但可能会改善结果。

感谢@BenBolker 的帮助。我写的是我根据自己的尝试和经验得出的结论,不完全是一个答案,只是想总结一下。 1. 条件均值是对随机效应的正态随机变量的预测。来自特定数据的所有条件均值的直方图和 QQplot 基本上可以是任何东西,实际上在大多数现实情况下,它不会遵循钟形曲线。这完全取决于您的数据。就像我在上面发布的示例中一样,我们看到了两种模式直方图,因为固定效应实际上对预测没有太大帮助,因此随机效应 'dragged' 进入两种模式以帮助模型达到最佳拟合。要了解这一点,请参阅 https://github.com/rikku1983/Mixed-model/blob/master/diagnostic1.png。在此图中,x 轴是 link 水平上的值,仅来自固定效应、随机效应(条件模式,因为我只有一个随机效应)和两者。图中的数字是预测能力。 2. 这导致一个自然的问题:条件模式的分布是否需要遵循钟形曲线以满足假设?我不这么认为,因为这是由于你的数据,换句话说,如果你的数据不能很好地代表人口,即使模型接近真实,条件模式也不会遵循正态分布人口。 3. 这引出了一个更普遍的问题,即我们应该如何诊断广义混合模型、检验随机成分之间的正态性和独立性假设?我在 google 上进行了搜索,但仍然没有找到任何我认为真正有用的东西。欢迎提出任何建议。

再次声明,不能保证以上所有内容都是正确的。把我的理解提出来讨论是否值得。