SPSS Modeler 中 CHAID(决策树)中的重叠节点
Overlapping Nodes in CHAID (Decision Tree) in SPSS Modeler
我偶尔会遇到 CHAID 模型(在 SPSS Modeler 中)中似乎具有重叠值的节点,例如:
以上,拆分是基于连续变量("Fulfillment in: Working at a job..."等基于李克特标度项)。我不清楚如何解释节点——例如,节点 4 <= 5.000 但节点 5 是 5.000,6.000。我注意到有括号,但不知道它们代表什么。
或者这是因为我错误地配置了构建选项?它们当前设置为:
- 构建新模型
- 构建单树(生成模型)
- 详尽的 CHAID
- 最大树深度设置为自定义值:10
- 默认停止规则(百分比)、默认 Ensemble 规则和所有高级设置也是默认值
提前感谢您的指导。
没有任何重叠。 SPSS 对值的范围 (a.k.a. "intervals") 使用的表示法与您在微积分课程中使用的相同。圆括号表示区间不包含端点,方括号表示端点在区间内。
因此,树的中间节点标记为“(6, 7]”,但是,由于变量值是整数,因此实际上只有值为 7 的情况落入该节点。对于 Likert-scaled 项目,例如这个,您可能希望告诉 SPSS 将变量视为有序变量,而不是连续变量。
我偶尔会遇到 CHAID 模型(在 SPSS Modeler 中)中似乎具有重叠值的节点,例如:
以上,拆分是基于连续变量("Fulfillment in: Working at a job..."等基于李克特标度项)。我不清楚如何解释节点——例如,节点 4 <= 5.000 但节点 5 是 5.000,6.000。我注意到有括号,但不知道它们代表什么。
或者这是因为我错误地配置了构建选项?它们当前设置为:
- 构建新模型
- 构建单树(生成模型)
- 详尽的 CHAID
- 最大树深度设置为自定义值:10
- 默认停止规则(百分比)、默认 Ensemble 规则和所有高级设置也是默认值
提前感谢您的指导。
没有任何重叠。 SPSS 对值的范围 (a.k.a. "intervals") 使用的表示法与您在微积分课程中使用的相同。圆括号表示区间不包含端点,方括号表示端点在区间内。
因此,树的中间节点标记为“(6, 7]”,但是,由于变量值是整数,因此实际上只有值为 7 的情况落入该节点。对于 Likert-scaled 项目,例如这个,您可能希望告诉 SPSS 将变量视为有序变量,而不是连续变量。