GAM 预测的可重复性（mgcv 包）

Question

我正在使用 mgcv R 包中的 bam() 函数构建的广义加性模型来预测二元响应的概率。

我似乎对相同的输入数据得到略有不同的预测，这取决于所提供的 newdata table 的构成，不明白为什么。

模型是使用如下公式构建的：

model <- bam(response ~ categorical_predictor1 + s(continuous_predictor, bs='tp'),
             data=data,
             family="binomial",
             select=TRUE,
             discrete=TRUE,
             nthreads = 16)

我还有几个分类和连续的预测变量，但是为了节省space我在上面的公式中只提到了两个。

然后我这样预测：

predictions <- predict(model,
                       newdata = newdata,
                       type="response")

我想预测大约 250 万行，但在测试期间我预测了 250,000 的一个子集。

每次我使用模型预测该子集（即 newdata=subset）时，我都会得到相同的输出 - 这是可重现的。但是，如果我使用该模型在 250 万行的完整 table 中预测同一子集（即 newdata=full_data），那么我对该 250,000 行子集的预测与我预测它们时的预测略有不同分开。

我一直认为每一行都是根据提供的预测器依次预测的，所以无法理解为什么预测会随着“新数据”的上下文而变化。如果我预测使用标准 glm 或随机森林，则不会发生这种情况，因此我假设它是特定于 gams 或 mgcv 包的东西。

抱歉，我无法提供可重现的示例 - 我的数据集很大，我不确定小示例数据集是否会发生同样的事情。

Answer 1

来自 predict.bam 帮助：
“当 discrete=TRUE 时，newdata 中的预测数据以与使用 bam 离散拟合方法时相同的方式离散化。但是，离散化网格目前与拟合期间使用的网格不相同。相反，离散化重新进行预测数据。这意味着，如果您针对相对较小的预测数据集或在规则网格上进行预测，那么结果实际上可能与未经离散化获得的结果相同。这种方法的缺点是，如果您使用一个大数据帧，然后将其拆分成更小的数据帧再次进行预测，结果可能会略有不同，因为离散化误差略有不同。"

您可能无法切换到 gam 或使用 discrete=FALSE，因为您需要速度。但是你必须处理一些小的交换差异。从帮助来看，您似乎可以通过仔细选择子集来最小化它，但您将无法完全消除它。

GAM 预测的可重复性（mgcv 包）

Reproducibility of predictions from GAM (mgcv package)

r

prediction

gam

mgcv

logistic-regression