如何在 Scikit-Learn 文本 CountVectorizer 或 TfidfVectorizer 中保留标点符号?
How to preserve punctuation marks in Scikit-Learn text CountVectorizer or TfidfVectorizer?
有什么方法可以让我在 scikit-learn 中使用文本 CountVectorizer
或 TfidfVectorizer
参数保留文本文档中的 !、?、" 和 ' 标点符号?
您应该在实例化向量化器时自定义 token_pattern
参数。例如:
vent = CountVectorizer(token_pattern=r"(?u)\b\w\w+\b|!|\?|\"|\'")
有什么方法可以让我在 scikit-learn 中使用文本 CountVectorizer
或 TfidfVectorizer
参数保留文本文档中的 !、?、" 和 ' 标点符号?
您应该在实例化向量化器时自定义 token_pattern
参数。例如:
vent = CountVectorizer(token_pattern=r"(?u)\b\w\w+\b|!|\?|\"|\'")