Sklearn CountVectorizer token_pattern 允许带有任何字符的字符串

Question

我想为 CountVectorizer (docs) 编写一个 token_pattern=，允许任何字符串作为标记传入。

默认排除很多，包括带连字符的字符串...

我最接近的是：

vectorizer = CountVectorizer(token_patten=r"(?u)\b\w\w+\b|!|\?|\"|\'")

来自 .

但是我在正则表达式方面缺乏技巧，所以我一直无法成功定制它。

Answer 1

我想通了。

这允许任何字符串。

vectorizer = CountVectorizer(token_pattern=r'.*')

Sklearn CountVectorizer token_pattern that allows strings with any characters