在信息增益修剪功能的上下文中,alpha 的含义是什么?

What is the meaning of alpha in the context of an information gain pruning function?

在 PST 包中,我们使用值 C 作为用于修剪树的信息增益函数的截止值。对于 0.05 的 alpha,C 值计算如下:

C95 <- qchisq(0.95, 1) / 2

C 值基于 0.05 的 alpha 是什么意思?这是否意味着我们需要至少 95% 确定一个额外的节点与之前的节点相比会添加更多的信息,以便它被修剪算法保留?

您的问题涉及 gain="G2"prune 函数中的使用,并且是关于此增益函数的阈值 C 的选择。

2倍的G2 gain function用来检查一个分支是否可以被剪枝,其实就是比较剪枝前后树的似然性的似然比检验统计量。在假设测试分支不添加任何信息的情况下,统计量 2*G2 服从卡方分布。因此,当差异在统计上不显着时,即只要 G2 值不超过给定显着性水平的阈值,就会修剪分支。

alpha 是统计检验中常用的显着性水平。通常为 1% 或 5%。选择 alpha= 0.05 意味着有 5% 的机会由于样本的随机性而错误地不修剪分支。