为随机森林选择变量
Selecting variables for random forest
我在 reprtree
中制作了一个随机森林树的表示,但我认为我的节点太多了:
我写的那一行:RFM = randomForest(Rating ~., data = training)
我想去掉一些不相关的变量,但是我写的所有东西都不行;我试过了:
RFM = randomForest(Customer_type, Rating, cogs, data = training)
只有这三个变量,但我仍然有错误。
你知道我如何在不编写 Rating ~.
公式的情况下 'select' 数据框中的变量吗?我尝试更改 ntree
但我的节点仍然太多。
randomForest
接受公式对象。尝试:
RFM = randomForest(Rating~Customer_type + Rating + cogs, data = training)
您可以调查所有变量的变量重要性。如果要排除不相关的变量,可以去掉变量重要性为负或边际的变量。
我认为您可以使用以下方法简单地调查变量重要性:importance(RFM)
我在 reprtree
中制作了一个随机森林树的表示,但我认为我的节点太多了:
我写的那一行:RFM = randomForest(Rating ~., data = training)
我想去掉一些不相关的变量,但是我写的所有东西都不行;我试过了:
RFM = randomForest(Customer_type, Rating, cogs, data = training)
只有这三个变量,但我仍然有错误。
你知道我如何在不编写 Rating ~.
公式的情况下 'select' 数据框中的变量吗?我尝试更改 ntree
但我的节点仍然太多。
randomForest
接受公式对象。尝试:
RFM = randomForest(Rating~Customer_type + Rating + cogs, data = training)
您可以调查所有变量的变量重要性。如果要排除不相关的变量,可以去掉变量重要性为负或边际的变量。
我认为您可以使用以下方法简单地调查变量重要性:importance(RFM)