为随机森林选择变量

Question

我在 reprtree 中制作了一个随机森林树的表示，但我认为我的节点太多了：

我写的那一行：RFM = randomForest(Rating ~., data = training)

我想去掉一些不相关的变量，但是我写的所有东西都不行；我试过了：

RFM = randomForest(Customer_type, Rating, cogs, data = training) 只有这三个变量，但我仍然有错误。

你知道我如何在不编写 Rating ~. 公式的情况下 'select' 数据框中的变量吗？我尝试更改 ntree 但我的节点仍然太多。

Answer 1

randomForest 接受公式对象。尝试：

RFM = randomForest(Rating~Customer_type + Rating + cogs, data = training)

Answer 2

您可以调查所有变量的变量重要性。如果要排除不相关的变量，可以去掉变量重要性为负或边际的变量。

我认为您可以使用以下方法简单地调查变量重要性：importance(RFM)

Selecting variables for random forest