为什么在 "gam(y ~ mgcv::s...)" 中使用 "mgcv::s" 会导致错误?
Why does using "mgcv::s" in "gam(y ~ mgcv::s...)" result in an error?
我想说清楚并在行中使用 ::
符号来拟合 mgcv::gam
。在 mgcv::s
的模型调用中使用符号时,我偶然发现了一件事。具有可重现示例/错误的代码如下所示。
原因可能是因为我在模型公式中使用了这个符号,但我无法弄清楚为什么这不起作用/不允许。这可能是关于语法的一些非常具体的东西(我猜可能不是 mgcv 特定的),但也许有人可以帮助我理解这一点以及我对 R 的理解。提前谢谢你。
library(mgcv)
dat <- data.frame(x = 1:10, y = 101:110)
# this results in an error: invalid type (list)...
mgcv::gam(y ~ mgcv::s(x, bs = "cs", k = -1), data = dat)
# after removing the mgcv:: in front of s everything works fine
mgcv::gam(y ~ s(x, bs = "cs", k = -1), data = dat)
# outside of the model call, both calls return the desired function
class(s)
# [1] "function"
class(mgcv::s)
# [1] "function"
这看起来像是一个 mgcv
问题。例如,lm()
函数接受 poly()
或 stats::poly()
并给出相同的结果(除了事物的名称):
> x <- 1:100
> y <- rnorm(100)
> lm(y ~ poly(x, 3))
Call:
lm(formula = y ~ poly(x, 3))
Coefficients:
(Intercept) poly(x, 3)1 poly(x, 3)2 poly(x, 3)3
0.07074 0.13631 -1.52845 -0.93285
> lm(y ~ stats::poly(x, 3))
Call:
lm(formula = y ~ stats::poly(x, 3))
Coefficients:
(Intercept) stats::poly(x, 3)1 stats::poly(x, 3)2 stats::poly(x, 3)3
0.07074 0.13631 -1.52845 -0.93285
它也适用于 splines::bs
函数,因此这不是特定于 poly()
。
您应该联系 mgcv
维护者并指出该包中的这个错误。我猜它是专门寻找 s
,而不是像 mgcv::s
这样计算结果相同的表达式。
说明
library(mgcv)
#Loading required package: nlme
#This is mgcv 1.8-24. For overview type 'help("mgcv-package")'.
f1 <- ~ s(x, bs = 'cr', k = -1)
f2 <- ~ mgcv::s(x, bs = 'cr', k = -1)
OK <- mgcv:::interpret.gam0(f1)$smooth.spec
FAIL <- mgcv:::interpret.gam0(f2)$smooth.spec
str(OK)
# $ :List of 10
# ..$ term : chr "x"
# ..$ bs.dim : num -1
# ..$ fixed : logi FALSE
# ..$ dim : int 1
# ..$ p.order: logi NA
# ..$ by : chr "NA"
# ..$ label : chr "s(x)"
# ..$ xt : NULL
# ..$ id : NULL
# ..$ sp : NULL
# ..- attr(*, "class")= chr "cr.smooth.spec"
str(FAIL)
# list()
interpret.gam0
源代码的第 4 行揭示了问题:
head(mgcv:::interpret.gam0)
1 function (gf, textra = NULL, extra.special = NULL)
2 {
3 p.env <- environment(gf)
4 tf <- terms.formula(gf, specials = c("s", "te", "ti", "t2",
5 extra.special))
6 terms <- attr(tf, "term.labels")
由于不匹配"mgcv::s"
,所以你得到了问题。但是 mgcv
确实允许您通过参数 extra.special
:
传递 "mgcv::s"
来解决这个问题
FIX <- mgcv:::interpret.gam0(f, extra.special = "mgcv::s")$smooth.spec
all.equal(FIX, OK)
# [1] TRUE
只是在高级例程中这不是用户可控的:
head(mgcv::gam, n = 10)
#1 function (formula, family = gaussian(), data = list(), weights = NULL,
#2 subset = NULL, na.action, offset = NULL, method = "GCV.Cp",
#3 optimizer = c("outer", "newton"), control = list(), scale = 0,
#4 select = FALSE, knots = NULL, sp = NULL, min.sp = NULL, H = NULL,
#5 gamma = 1, fit = TRUE, paraPen = NULL, G = NULL, in.out = NULL,
#6 drop.unused.levels = TRUE, drop.intercept = NULL, ...)
#7 {
#8 control <- do.call("gam.control", control)
#9 if (is.null(G)) {
#10 gp <- interpret.gam(formula) ## <- default to extra.special = NULL
我同意 Ben Bolker 的观点。挖掘内部发生的事情是一个很好的练习,但将其视为错误并修复它是反应过度。
更多见解:
s
、te
等在 mgcv
中与 stats::poly
和 splines::bs
的逻辑不同。
- 例如,当您执行
X <- splines::bs(x, df = 10, degree = 3)
时,它会 评估 x
并直接创建设计矩阵 X
。
- 当您执行
s(x, bs = 'cr', k = 10)
时,不进行评估; 已解析。
mgcv
中的顺利构建需要几个阶段:
mgcv::interpret.gam
解析/解释,生成更平滑的配置文件;
mgcv::smooth.construct
的初始构造,它设置了基础/设计矩阵和惩罚矩阵(主要在 C 级完成);
mgcv::smoothCon
的二次构造,它选取"by"变量(例如,为因子"by"复制平滑),线性函数项,空space惩罚(如果你使用 select = TRUE
),惩罚重缩放,居中约束等;
mgcv:::gam.setup
的最终整合,它将所有平滑器组合在一起,返回模型矩阵等。
所以,这是一个复杂得多的过程。
我想说清楚并在行中使用 ::
符号来拟合 mgcv::gam
。在 mgcv::s
的模型调用中使用符号时,我偶然发现了一件事。具有可重现示例/错误的代码如下所示。
原因可能是因为我在模型公式中使用了这个符号,但我无法弄清楚为什么这不起作用/不允许。这可能是关于语法的一些非常具体的东西(我猜可能不是 mgcv 特定的),但也许有人可以帮助我理解这一点以及我对 R 的理解。提前谢谢你。
library(mgcv)
dat <- data.frame(x = 1:10, y = 101:110)
# this results in an error: invalid type (list)...
mgcv::gam(y ~ mgcv::s(x, bs = "cs", k = -1), data = dat)
# after removing the mgcv:: in front of s everything works fine
mgcv::gam(y ~ s(x, bs = "cs", k = -1), data = dat)
# outside of the model call, both calls return the desired function
class(s)
# [1] "function"
class(mgcv::s)
# [1] "function"
这看起来像是一个 mgcv
问题。例如,lm()
函数接受 poly()
或 stats::poly()
并给出相同的结果(除了事物的名称):
> x <- 1:100
> y <- rnorm(100)
> lm(y ~ poly(x, 3))
Call:
lm(formula = y ~ poly(x, 3))
Coefficients:
(Intercept) poly(x, 3)1 poly(x, 3)2 poly(x, 3)3
0.07074 0.13631 -1.52845 -0.93285
> lm(y ~ stats::poly(x, 3))
Call:
lm(formula = y ~ stats::poly(x, 3))
Coefficients:
(Intercept) stats::poly(x, 3)1 stats::poly(x, 3)2 stats::poly(x, 3)3
0.07074 0.13631 -1.52845 -0.93285
它也适用于 splines::bs
函数,因此这不是特定于 poly()
。
您应该联系 mgcv
维护者并指出该包中的这个错误。我猜它是专门寻找 s
,而不是像 mgcv::s
这样计算结果相同的表达式。
说明
library(mgcv)
#Loading required package: nlme
#This is mgcv 1.8-24. For overview type 'help("mgcv-package")'.
f1 <- ~ s(x, bs = 'cr', k = -1)
f2 <- ~ mgcv::s(x, bs = 'cr', k = -1)
OK <- mgcv:::interpret.gam0(f1)$smooth.spec
FAIL <- mgcv:::interpret.gam0(f2)$smooth.spec
str(OK)
# $ :List of 10
# ..$ term : chr "x"
# ..$ bs.dim : num -1
# ..$ fixed : logi FALSE
# ..$ dim : int 1
# ..$ p.order: logi NA
# ..$ by : chr "NA"
# ..$ label : chr "s(x)"
# ..$ xt : NULL
# ..$ id : NULL
# ..$ sp : NULL
# ..- attr(*, "class")= chr "cr.smooth.spec"
str(FAIL)
# list()
interpret.gam0
源代码的第 4 行揭示了问题:
head(mgcv:::interpret.gam0)
1 function (gf, textra = NULL, extra.special = NULL)
2 {
3 p.env <- environment(gf)
4 tf <- terms.formula(gf, specials = c("s", "te", "ti", "t2",
5 extra.special))
6 terms <- attr(tf, "term.labels")
由于不匹配"mgcv::s"
,所以你得到了问题。但是 mgcv
确实允许您通过参数 extra.special
:
"mgcv::s"
来解决这个问题
FIX <- mgcv:::interpret.gam0(f, extra.special = "mgcv::s")$smooth.spec
all.equal(FIX, OK)
# [1] TRUE
只是在高级例程中这不是用户可控的:
head(mgcv::gam, n = 10)
#1 function (formula, family = gaussian(), data = list(), weights = NULL,
#2 subset = NULL, na.action, offset = NULL, method = "GCV.Cp",
#3 optimizer = c("outer", "newton"), control = list(), scale = 0,
#4 select = FALSE, knots = NULL, sp = NULL, min.sp = NULL, H = NULL,
#5 gamma = 1, fit = TRUE, paraPen = NULL, G = NULL, in.out = NULL,
#6 drop.unused.levels = TRUE, drop.intercept = NULL, ...)
#7 {
#8 control <- do.call("gam.control", control)
#9 if (is.null(G)) {
#10 gp <- interpret.gam(formula) ## <- default to extra.special = NULL
我同意 Ben Bolker 的观点。挖掘内部发生的事情是一个很好的练习,但将其视为错误并修复它是反应过度。
更多见解:
s
、te
等在 mgcv
中与 stats::poly
和 splines::bs
的逻辑不同。
- 例如,当您执行
X <- splines::bs(x, df = 10, degree = 3)
时,它会 评估x
并直接创建设计矩阵X
。 - 当您执行
s(x, bs = 'cr', k = 10)
时,不进行评估; 已解析。
mgcv
中的顺利构建需要几个阶段:
mgcv::interpret.gam
解析/解释,生成更平滑的配置文件;mgcv::smooth.construct
的初始构造,它设置了基础/设计矩阵和惩罚矩阵(主要在 C 级完成);mgcv::smoothCon
的二次构造,它选取"by"变量(例如,为因子"by"复制平滑),线性函数项,空space惩罚(如果你使用select = TRUE
),惩罚重缩放,居中约束等;mgcv:::gam.setup
的最终整合,它将所有平滑器组合在一起,返回模型矩阵等。
所以,这是一个复杂得多的过程。