使用 partykit 自定义拆分规则
custom split rule with partykit
这个 post 遵循这个问题:
我对可以根据自定义标准处理树木生长的工具非常感兴趣,这样我就可以测试不同的模型。
我尝试使用 partykit R 包来生成一棵树,其拆分规则由 Cox 模型的负对数似然给出(在 Cox 模型的情况下为对数拟似然)和每片叶子都安装了一个 Cox 模型。
据我了解阅读有关 MOB 函数的小插图,有两种方法可以实现我自己的拆分标准,即获得适合函数 return 列表或模型对象。
出于我的目的,我尝试了两种解决方案,但未能成功。
解决方案 1:return 列表对象:
我以 "mob" 小插图中的 "breast cancer dataset" 为例。
我试过了:
cox1 = function(y,x, start = NULL, weights = NULL, offset = NULL, ...,
estfun = FALSE, object = TRUE){
res_cox = coxph(formula = y ~ x )
list(
coefficients = res_cox$coefficients,
objfun = - res_cox$loglik[2],
object = res_cox)
}
mob(formula = Surv(time, cens) ~ horTh + pnodes - 1 | age + tsize + tgrade + progrec +
estrec + menostat ,
data = GBSG2 ,
fit = cox1,
control = mob_control(alpha = 0.0001) )
存在关于 X 矩阵奇点的警告,并且 mob 函数是一个具有单个节点的树(即使 alpha 值较小)。
请注意,当 运行 coxph 函数时,X 矩阵没有奇点问题:
res_cox = coxph( formula = Surv(time, cens) ~ horTh + pnodes ,
data = GBSG2 )
解决方案 2:Return一个 coxph.object:
我试过了:
cox2 = function(y,x, start = NULL, weights = NULL, offset = NULL, ... ){
res_cox = coxph(formula = y ~ x )
}
logLik.cox2 <- function(object, ...)
structure( - object$loglik[2], class = "logLik")
mob(formula = Surv(time, cens) ~ horTh + pnodes - 1 | age + tsize + tgrade + progrec +
estrec + menostat ,
data = GBSG2 ,
fit = cox2,
control = mob_control(alpha = 0.0001 ) )
所以这次我沿着 "progrec" 变量拆分:
Model-based recursive partitioning (cox2)
Model formula:
Surv(time, cens) ~ horTh + pnodes - 1 | age + tsize + tgrade +
progrec + estrec + menostat
Fitted party:
[1] root
| [2] progrec <= 21: n = 281
| xhorThno xhorThyes xpnodes
| 0.19306661 NA 0.07832756
| [3] progrec > 21: n = 405
| xhorThno xhorThyes xpnodes
| 0.64810352 NA 0.04482348
Number of inner nodes: 1
Number of terminal nodes: 2
Number of parameters per node: 3
Objective function: 1531.132
Warning message:
In coxph(formula = y ~ x) : X matrix deemed to be singular; variable 2
我想知道我的解决方案 1 有什么问题。
我也为回归问题尝试了类似的事情并得到了相同的结果,以单叶结束:
data("BostonHousing", package = "mlbench")
BostonHousing <- transform(BostonHousing,
chas = factor(chas, levels = 0:1, labels = c("no", "yes")),
rad = factor(rad, ordered = TRUE))
linear_reg = function(y,x, start = NULL, weights = NULL, offset = NULL, ...,
estfun = FALSE, object = TRUE){
res_lm = glm(formula = y ~ x , family = "gaussian")
list(
coefficients = res_lm$coefficients,
objfun = res_lm$deviance,
object = res_lm )
}
mob( formula = medv ~ log(lstat) + I(rm^2) | zn + indus + chas + nox +
+ age + dis + rad + tax + crim + b + ptratio,
data = BostonHousing ,
fit = linear_reg)
另外我想知道对 "fit the model in a node" 和 "make a split" 使用变量是否没有问题。
提前谢谢你。
我可能还有其他关于 partykit 功能的问题。
您设置的 cox1()
和 linear_reg()
函数的问题是您没有提供估计函数,也就是得分贡献。由于这些是选择分裂变量的推理的基础,如果不提供这些,算法根本不会分裂。有关此问题的一些讨论,请参阅最近的 answer。
但是对于coxph()
对象(不像上面链接讨论中的fitdistr()
例子)很容易获得这些估计函数或分数,因为有一个estfun()
方法可用.因此,您的 cox2()
方法更容易到达此处。
后者不能正常工作的原因是coxph()
中对拦截的特殊处理。在内部,这总是强制截距进入模型,但随后从设计矩阵中省略第一列。通过 mob()
进行交互时,您需要小心不要搞砸,因为 mob()
设置了自己的模型矩阵。并且因为你排除了截距,mob()
认为它可以估计 horTh
的两个水平。但事实并非如此,因为在 Cox-PH 模型中未识别截距。
这种情况下的最佳解决方案 (IMO) 如下:让 mob()
设置一个截距,然后在将模型矩阵传递给 coxph()
时再次排除它。因为结果对象有 coef()
、logLik()
和 estfun()
方法,所以可以使用 cox2()
函数的简单设置。
包和数据:
library("partykit")
library("survival")
data("GBSG2", package = "TH.data")
拟合函数:
cox <- function(y, x, start = NULL, weights = NULL, offset = NULL, ... ) {
x <- x[, -1]
coxph(formula = y ~ 0 + x)
}
MOB 树与 GBSG2
数据的拟合:
mb <- mob(formula = Surv(time, cens) ~ horTh + pnodes | age + tsize + tgrade + progrec + estrec + menostat,
data = GBSG2, fit = cox)
mb
## Model-based recursive partitioning (cox)
##
## Model formula:
## Surv(time, cens) ~ horTh + pnodes | age + tsize + tgrade + progrec +
## estrec + menostat
##
## Fitted party:
## [1] root: n = 686
## xhorThyes xpnodes
## -0.35701115 0.05768026
##
## Number of inner nodes: 0
## Number of terminal nodes: 1
## Number of parameters per node: 2
## Objective function: 1758.86
这个 post 遵循这个问题:
我对可以根据自定义标准处理树木生长的工具非常感兴趣,这样我就可以测试不同的模型。
我尝试使用 partykit R 包来生成一棵树,其拆分规则由 Cox 模型的负对数似然给出(在 Cox 模型的情况下为对数拟似然)和每片叶子都安装了一个 Cox 模型。
据我了解阅读有关 MOB 函数的小插图,有两种方法可以实现我自己的拆分标准,即获得适合函数 return 列表或模型对象。
出于我的目的,我尝试了两种解决方案,但未能成功。
解决方案 1:return 列表对象:
我以 "mob" 小插图中的 "breast cancer dataset" 为例。
我试过了:
cox1 = function(y,x, start = NULL, weights = NULL, offset = NULL, ...,
estfun = FALSE, object = TRUE){
res_cox = coxph(formula = y ~ x )
list(
coefficients = res_cox$coefficients,
objfun = - res_cox$loglik[2],
object = res_cox)
}
mob(formula = Surv(time, cens) ~ horTh + pnodes - 1 | age + tsize + tgrade + progrec +
estrec + menostat ,
data = GBSG2 ,
fit = cox1,
control = mob_control(alpha = 0.0001) )
存在关于 X 矩阵奇点的警告,并且 mob 函数是一个具有单个节点的树(即使 alpha 值较小)。
请注意,当 运行 coxph 函数时,X 矩阵没有奇点问题:
res_cox = coxph( formula = Surv(time, cens) ~ horTh + pnodes ,
data = GBSG2 )
解决方案 2:Return一个 coxph.object:
我试过了:
cox2 = function(y,x, start = NULL, weights = NULL, offset = NULL, ... ){
res_cox = coxph(formula = y ~ x )
}
logLik.cox2 <- function(object, ...)
structure( - object$loglik[2], class = "logLik")
mob(formula = Surv(time, cens) ~ horTh + pnodes - 1 | age + tsize + tgrade + progrec +
estrec + menostat ,
data = GBSG2 ,
fit = cox2,
control = mob_control(alpha = 0.0001 ) )
所以这次我沿着 "progrec" 变量拆分:
Model-based recursive partitioning (cox2)
Model formula:
Surv(time, cens) ~ horTh + pnodes - 1 | age + tsize + tgrade +
progrec + estrec + menostat
Fitted party:
[1] root
| [2] progrec <= 21: n = 281
| xhorThno xhorThyes xpnodes
| 0.19306661 NA 0.07832756
| [3] progrec > 21: n = 405
| xhorThno xhorThyes xpnodes
| 0.64810352 NA 0.04482348
Number of inner nodes: 1
Number of terminal nodes: 2
Number of parameters per node: 3
Objective function: 1531.132
Warning message:
In coxph(formula = y ~ x) : X matrix deemed to be singular; variable 2
我想知道我的解决方案 1 有什么问题。
我也为回归问题尝试了类似的事情并得到了相同的结果,以单叶结束:
data("BostonHousing", package = "mlbench")
BostonHousing <- transform(BostonHousing,
chas = factor(chas, levels = 0:1, labels = c("no", "yes")),
rad = factor(rad, ordered = TRUE))
linear_reg = function(y,x, start = NULL, weights = NULL, offset = NULL, ...,
estfun = FALSE, object = TRUE){
res_lm = glm(formula = y ~ x , family = "gaussian")
list(
coefficients = res_lm$coefficients,
objfun = res_lm$deviance,
object = res_lm )
}
mob( formula = medv ~ log(lstat) + I(rm^2) | zn + indus + chas + nox +
+ age + dis + rad + tax + crim + b + ptratio,
data = BostonHousing ,
fit = linear_reg)
另外我想知道对 "fit the model in a node" 和 "make a split" 使用变量是否没有问题。
提前谢谢你。
我可能还有其他关于 partykit 功能的问题。
您设置的 cox1()
和 linear_reg()
函数的问题是您没有提供估计函数,也就是得分贡献。由于这些是选择分裂变量的推理的基础,如果不提供这些,算法根本不会分裂。有关此问题的一些讨论,请参阅最近的 answer。
但是对于coxph()
对象(不像上面链接讨论中的fitdistr()
例子)很容易获得这些估计函数或分数,因为有一个estfun()
方法可用.因此,您的 cox2()
方法更容易到达此处。
后者不能正常工作的原因是coxph()
中对拦截的特殊处理。在内部,这总是强制截距进入模型,但随后从设计矩阵中省略第一列。通过 mob()
进行交互时,您需要小心不要搞砸,因为 mob()
设置了自己的模型矩阵。并且因为你排除了截距,mob()
认为它可以估计 horTh
的两个水平。但事实并非如此,因为在 Cox-PH 模型中未识别截距。
这种情况下的最佳解决方案 (IMO) 如下:让 mob()
设置一个截距,然后在将模型矩阵传递给 coxph()
时再次排除它。因为结果对象有 coef()
、logLik()
和 estfun()
方法,所以可以使用 cox2()
函数的简单设置。
包和数据:
library("partykit")
library("survival")
data("GBSG2", package = "TH.data")
拟合函数:
cox <- function(y, x, start = NULL, weights = NULL, offset = NULL, ... ) {
x <- x[, -1]
coxph(formula = y ~ 0 + x)
}
MOB 树与 GBSG2
数据的拟合:
mb <- mob(formula = Surv(time, cens) ~ horTh + pnodes | age + tsize + tgrade + progrec + estrec + menostat,
data = GBSG2, fit = cox)
mb
## Model-based recursive partitioning (cox)
##
## Model formula:
## Surv(time, cens) ~ horTh + pnodes | age + tsize + tgrade + progrec +
## estrec + menostat
##
## Fitted party:
## [1] root: n = 686
## xhorThyes xpnodes
## -0.35701115 0.05768026
##
## Number of inner nodes: 0
## Number of terminal nodes: 1
## Number of parameters per node: 2
## Objective function: 1758.86