当我已经设置了文档频率上限时,不删除停用词是否不好?

Is it bad to not remove stopwords when I've already set a ceiling on document frequency?

我正在使用 sklearn.feature_extraction.text.TfidfVectorizer。我正在处理文本。删除停用词似乎是标准的。然而,在我看来,如果我已经对文档频率设置了上限,这意味着我将不包括文档中很大一部分的标记(例如 max_df=0.8),那么删除停用词似乎没有必要。理论上,停用词是经常出现的词,应该排除在外。这样,我们就不必争论要在停用词列表中包含什么,对吧?据我了解,对于哪些词的使用频率足够高以至于它们应该被视为停用词存在分歧,对吗?例如,scikit-learn 在其内置的英语停用词列表中包含“whereby”。

你是对的。它可能是停用词的定义。但是,不要忘记在第一阶段删除停用词的一个原因是为了防止对它们进行计数并减少计算时间。

请注意,您对停用词的直觉是正确的。