R 中多峰分布回归分析的方法和工具是什么?

What method and tool for regression analysis for a multimodal distribution in R?

我有一组变量 X1、X2 和 Y,其关系图如下所示。 X2 值用于颜色编码。

X1、X2 和 X3 是整型变量。

观察到的模式是多峰的。

根据 X1 和 X2 预测 Y 的最佳方法是什么?

我们可以为此使用非线性或障碍模型吗?

还有哪些工具可以在 R 中实现这一点?

一般来说,不需要担心响应的分布。尽管您显示的是双变量图,但 multi-modality 可能由 X2 (或其他缺失变量)

解释

重要的是模型残差的分布(如果重要的话)。

如果残差为non-normal,则某些推论可能无效,但如果使用模型进行预测,这可能根本不是问题。

如果你真的有曲线关联那么你可以考虑:

  • 变换
  • non-linear 条款
  • 样条曲线
  • 广义加性模型 (GAM)
  • non-linear 款

当然,如果潜在的问题是您缺少解释变量,那么其中一些方法可能会导致模型过拟合。