为随机森林选择变量

Selecting variables for random forest

我在 reprtree 中制作了一个随机森林树的表示,但我认为我的节点太多了:

我写的那一行:RFM = randomForest(Rating ~., data = training)

我想去掉一些不相关的变量,但是我写的所有东西都不行;我试过了:

RFM = randomForest(Customer_type, Rating, cogs, data = training) 只有这三个变量,但我仍然有错误。

你知道我如何在不编写 Rating ~. 公式的情况下 'select' 数据框中的变量吗?我尝试更改 ntree 但我的节点仍然太多。

randomForest 接受公式对象。尝试:

RFM = randomForest(Rating~Customer_type + Rating + cogs, data = training)

您可以调查所有变量的变量重要性。如果要排除不相关的变量,可以去掉变量重要性为负或边际的变量。

我认为您可以使用以下方法简单地调查变量重要性:importance(RFM)