具有许多小值和一些极值点的数据集的线性回归替代方法

Alternatives to linear regression for dataset with many points with small value and some extreme values

我想根据今年的药物数据(药物代码)、年龄、性别和今年的费用,为一组患者明年的药物费用建模。

我使用线性回归得到了 0.69 的 R^2,出奇的好。当我根据当年的费用金额将患者分成相同规模的 5 组时,我可以看到后 80% 的人表现极差,而前 20% 的人以 0.71 的分数弥补了这一点。

80% 的人的成本大约在 500 欧元以下,而那些成本很高的人的成本非常高,高达 500.000 欧元。

我认为,既然Linear Regression想要最小化残差,那么用仍然相对较小的残差来预测底部成本并没有像最小化高成本那样带来更多收益。

是否有替代模型,在这种情况下也能更好地预测小成本?

您需要考虑变量与模型中所需属性之间的关系。您的模型是否必须对所有变量都是连续的?您能否根据患者成本在两个模型之上添加决策树?你需要一种不同的方式来表达这两类人。

我的直接倾向是建议一个决策树,然后是两个不同的线性回归,但这可能没有您想要的连续和封闭形式的解决方案。

要获得平滑的解决方案,您可以进行加权线性回归,在其中对某些错误进行惩罚less/more。

您还需要考虑 R^2 是否是最佳指标。你平等地关心所有的例子吗?你在预测什么?一个例子的错误会让另一个例子相形见绌吗?

这看起来像是异方差的标准情况,其中方差随预期均值增加。

几个选择:

  • 使用 WLS 并根据预测值或某些预测变量使用权重。
  • 转换因变量,例如log(y) 并估计对数正态模型
  • 使用均值方差递增的分布,例如
    泊松的方差等于均值。我们需要对连续变量使用准泊松。 Gamma 的均值方差为二次方。
    这些分布通常在 GLM 中实现。

此外,检查解释变量和因变量之间是否存在非线性关系。
例如,广义线性模型使用 link 函数将预测保持在因变量分布域中,例如,可以使用指数均值函数 (log link) 对非负值建模.