CountVectorizer 是否应该同时适用于训练集和测试集?

Should CountVectorizer be fit on both the train and test sets?

我在网上看到了各种文章,有的建议CountVectorizer应该同时适用于训练集和测试集,有的建议它应该只适用于训练集。 哪种方法通常更适合文本分类?

一般来说 test_set 应该保持不可见,所以 CountVectorizer 应该只安装在 train_set