Weka 3.7.11 中的随机树对数值属性使用什么分裂标准?
What splitting criterion does Random Tree in Weka 3.7.11 use for numerical attributes?
我使用的是 Weka 3.7.11 中的 RandomForest,后者又是 bagging Weka 的 RandomTree。我的输入属性是数字,输出属性(标签)也是数字。
训练RandomTree时,为树的每个节点随机选择K个属性。尝试了几次基于这些属性的拆分,并选择了 "best" 一个。 Weka 如何确定在这种(数字)情况下最好的拆分方式?
对于标称属性,我相信 Weka 使用的是基于条件熵的 information gain 标准。
IG(T|a) = H(T) - H(T|a)
是否有类似的东西用于数字属性?也许是微分熵?
按数值属性拆分树时,按a>5
等条件拆分。所以,这个条件实际上变成了二元变量,标准(信息增益)是完全相同的。
P.S。对于回归,常用的是误差平方和(对于每个叶子,然后对叶子求和)。但是我对 Weka
不是特别了解
我使用的是 Weka 3.7.11 中的 RandomForest,后者又是 bagging Weka 的 RandomTree。我的输入属性是数字,输出属性(标签)也是数字。
训练RandomTree时,为树的每个节点随机选择K个属性。尝试了几次基于这些属性的拆分,并选择了 "best" 一个。 Weka 如何确定在这种(数字)情况下最好的拆分方式?
对于标称属性,我相信 Weka 使用的是基于条件熵的 information gain 标准。
IG(T|a) = H(T) - H(T|a)
是否有类似的东西用于数字属性?也许是微分熵?
按数值属性拆分树时,按a>5
等条件拆分。所以,这个条件实际上变成了二元变量,标准(信息增益)是完全相同的。
P.S。对于回归,常用的是误差平方和(对于每个叶子,然后对叶子求和)。但是我对 Weka
不是特别了解