sklearn 中的 CountVectorizer 只有超过某个最小出现次数的单词

Question

我正在使用 sklearn 训练一些文本数据的逻辑回归，方法是使用 CountVectorizer 将数据标记为双字母组。我使用如下一行代码：

vect= CountVectorizer(ngram_range=(1,2), binary =True)

但是，我想限制自己只在我的所有数据中出现超过某个阈值次数（例如 50 次）的结果稀疏矩阵中包含二元组。有什么方法可以指定或实现它吗？

Answer 1

看起来这可以通过使用 CountVectorizer 的 min_df 参数来解决：

vect= CountVectorizer(ngram_range=(1,2), binary =True, min_df = 500)

Answer 2

也使用 CountVectorizer(ngram_range=(1,2), binary =True, max_features = 5000) 来 select 前 5000 个出现的双字母组。

CountVectorizer in sklearn with only words above some minimum number of occurrences