如何在 Scikit-Learn 文本 CountVectorizer 或 TfidfVectorizer 中保留标点符号?

How to preserve punctuation marks in Scikit-Learn text CountVectorizer or TfidfVectorizer?

有什么方法可以让我在 scikit-learn 中使用文本 CountVectorizerTfidfVectorizer 参数保留文本文档中的 !、?、" 和 ' 标点符号?

您应该在实例化向量化器时自定义 token_pattern 参数。例如:

vent = CountVectorizer(token_pattern=r"(?u)\b\w\w+\b|!|\?|\"|\'")