sklearn 中的 CountVectorizer 只有超过某个最小出现次数的单词

CountVectorizer in sklearn with only words above some minimum number of occurrences

我正在使用 sklearn 训练一些文本数据的逻辑回归,方法是使用 CountVectorizer 将数据标记为双字母组。我使用如下一行代码:

vect= CountVectorizer(ngram_range=(1,2), binary =True)

但是,我想限制自己只在我的所有数据中出现超过某个阈值次数(例如 50 次)的结果稀疏矩阵中包含二元组。有什么方法可以指定或实现它吗?

看起来这可以通过使用 CountVectorizer 的 min_df 参数来解决:

vect= CountVectorizer(ngram_range=(1,2), binary =True, min_df = 500)

也使用 CountVectorizer(ngram_range=(1,2), binary =True, max_features = 5000) 来 select 前 5000 个出现的双字母组。