Sklearn CountVectorizer token_pattern 允许带有任何字符的字符串

Sklearn CountVectorizer token_pattern that allows strings with any characters

我想为 CountVectorizer (docs) 编写一个 token_pattern=,允许任何字符串作为标记传入。

默认排除很多,包括带连字符的字符串...

我最接近的是:

vectorizer = CountVectorizer(token_patten=r"(?u)\b\w\w+\b|!|\?|\"|\'") 

来自 .

但是我在正则表达式方面缺乏技巧,所以我一直无法成功定制它。

我想通了。

这允许任何字符串。

vectorizer = CountVectorizer(token_pattern=r'.*')