随机森林文本分类在预测中提供额外的行
random forest text classification giving extra rows in prediction
我正在使用随机森林进行文本分类。我的输入数据有 17197 行。
> nrow(sparse_4testing)
[1] 17197
我正在使用
set.seed(123)
tweetRand = randomForest(label ~ ., data = train_sparse, importance=TRUE, nTree=500)
predicrRand_test=predict(tweetRand, data=sparse_4testing)
q1=data.frame(ifelse(predicrRand_test>0.5,1,0))
问题是当我进行健全性检查时,我在 q1 中得到了额外的行
> nrow(q1)
[1] 22373
我不明白这个问题。我是机器学习的新手。请帮帮我。
我有多次 运行 模型。仍然遇到同样的问题。
> nrow(predicrRand_test)
NULL
> head(predicrRand_test)
1 3 6 7 9 10
1.858321e-01 -8.326673e-17 1.321640e-01 2.222222e-04 2.345304e-02 1.651133e-01
> head(q1)
ifelse.predicrRand_test...0.05..1..0.
1 1
3 0
6 1
7 0
9 0
10 1
> length(predicrRand_test)
[1] 22373
问题是由于 predict
中的参数名称错误 - 应该是 newdata
,而不是 data
(docs):
predicrRand_test=predict(tweetRand, newdata=sparse_4testing)
就像现在一样,您的代码会忽略 data
参数,而只是 returns 对 predicrRand_test
数据帧中训练集的预测。
我正在使用随机森林进行文本分类。我的输入数据有 17197 行。
> nrow(sparse_4testing)
[1] 17197
我正在使用
set.seed(123)
tweetRand = randomForest(label ~ ., data = train_sparse, importance=TRUE, nTree=500)
predicrRand_test=predict(tweetRand, data=sparse_4testing)
q1=data.frame(ifelse(predicrRand_test>0.5,1,0))
问题是当我进行健全性检查时,我在 q1 中得到了额外的行
> nrow(q1)
[1] 22373
我不明白这个问题。我是机器学习的新手。请帮帮我。 我有多次 运行 模型。仍然遇到同样的问题。
> nrow(predicrRand_test)
NULL
> head(predicrRand_test)
1 3 6 7 9 10
1.858321e-01 -8.326673e-17 1.321640e-01 2.222222e-04 2.345304e-02 1.651133e-01
> head(q1)
ifelse.predicrRand_test...0.05..1..0.
1 1
3 0
6 1
7 0
9 0
10 1
> length(predicrRand_test)
[1] 22373
问题是由于 predict
中的参数名称错误 - 应该是 newdata
,而不是 data
(docs):
predicrRand_test=predict(tweetRand, newdata=sparse_4testing)
就像现在一样,您的代码会忽略 data
参数,而只是 returns 对 predicrRand_test
数据帧中训练集的预测。