定义在公式中使用的中缀运算符

Question

我正在尝试创建一个更简洁的 this 解决方案，它需要以 d1 + d1:d2.

的形式指定公式的 RHS

鉴于公式上下文中的 * 是完整交互的简洁替代品（即 d1 * d2 给出 d1 + d2 + d1:d2），我的方法是尝试定义一个替代运算符，比如 %+:% 使用我在其他应用程序中已经习惯的中缀方法，a la:

"%+:%" <- function(d1,d2) d1 + d2 + d1:d2

然而，这可以预见地失败了，因为我没有仔细评估；让我们介绍一个例子来说明我的进步：

set.seed(1029)
v1 <- runif(1000)
v2 <- runif(1000)
y <- .8*(v1 < .3) + .2 * (v2 > .25 & v2 < .8) - 
  .4 * (v2 > .8) + .1 * (v1 > .3 & v2 > .8)

通过这个例子，希望可以清楚为什么简单地写出这两个术语可能是不可取的：

y ~ cut(v2, breaks = c(0, .25, .8, 1)) +
  cut(v2, breaks = c(0, .25, .8, 1)):I(v1 < .3)

一种接近我想要的输出的解决方法是将整个公式定义为一个函数：

plus.times <- function(outvar, d1, d2){
  as.formula(paste0(quote(outvar), "~", quote(d1),
                    "+", quote(d1), ":", quote(d2)))
}

这在传递给 lm 时给出了预期的系数，但是名称很难直接解释（尤其是在我们注意给出 d1 和 [=22= 的真实数据中） ] 描述性名称，与此通用示例形成对比）：

out1 <- lm(y ~ cut(v2, breaks = c(0, .25, .8, 1)) +
             cut(v2, breaks = c(0, .25, .8, 1)):I(v1 < .3))
out2 <- lm(plus.times(y, cut(v2, breaks = c(0, .25, .8, 1)), I(v1 < .3)))
any(out1$coefficients != out2$coefficients)
# [1] FALSE
names(out2$coefficients)
# [1] "(Intercept)"         "d1(0.25,0.8]"        "d1(0.8,1]"           "d1(0,0.25]:d2TRUE"  
# [5] "d1(0.25,0.8]:d2TRUE" "d1(0.8,1]:d2TRUE"

所以这不是最优的。

有什么方法可以定义调整代码，使我上面提到的中缀运算符按预期工作吗？如何更改 plus.times 的形式以便不重命名变量？

我一直在四处寻找（?formula、?"~"、?":"、getAnywhere(formula.default)、this 答案等）但还没有了解 R 在公式中遇到 * 时的准确解释，以便我可以进行所需的微小调整。

Answer 1

在这种情况下您不需要定义新的运算符：在公式中 d1/d2 扩展为 d1 + d1:d2。换句话说，d1/d2 指定 d2 嵌套在 d1 中。继续你的例子：

out3 <- lm(y ~ cut(v2,breaks=c(0,.25,.8,1))/I(v1 < .3))
all.equal(coef(out1), coef(out3))
# [1] TRUE

进一步评论

因素可能交叉或嵌套。如果可以观察到两个因素水平的每个组合，则两个因素交叉，例如性别和治疗、温度和 pH 值等。如果一个因素的每个水平只能在另一个因素的一个水平内观察到，则该因素嵌套在另一个因素中，例如城镇和乡村、工作人员和商店等

这些关系反映在模型的参数化中。对于交叉因素，我们使用 d1*d2 或 d1 + d2 + d1:d2 来给出每个因素的主要影响以及交互作用。对于嵌套因子，我们使用 d1/d2 或 d1 + d1:d2 为 d1.

的每个级别提供 1 + d2 形式的单独子模型

嵌套的想法并不局限于因子，例如我们可以使用 sex/x 对男性和女性 x 进行单独的线性回归。

在公式中，%in%等同于:，但它可能被用来强调data/model的嵌套或层次结构。例如，a + b %in% a 与 a + a:b 相同，但读作 "a plus b within a" 可以更好地描述正在拟合的模型。即便如此，使用/的好处是在强调结构的同时简化了模型公式

定义在公式中使用的中缀运算符

Defining an infix operator for use within a formula

r

formula

infix-operator