CountVectorizer 是否应该同时适用于训练集和测试集?
Should CountVectorizer be fit on both the train and test sets?
我在网上看到了各种文章,有的建议CountVectorizer应该同时适用于训练集和测试集,有的建议它应该只适用于训练集。
哪种方法通常更适合文本分类?
一般来说 test_set
应该保持不可见,所以 CountVectorizer
应该只安装在 train_set
我在网上看到了各种文章,有的建议CountVectorizer应该同时适用于训练集和测试集,有的建议它应该只适用于训练集。 哪种方法通常更适合文本分类?
一般来说 test_set
应该保持不可见,所以 CountVectorizer
应该只安装在 train_set