Sklearn CountVectorizer token_pattern 允许带有任何字符的字符串
Sklearn CountVectorizer token_pattern that allows strings with any characters
我想为 CountVectorizer
(docs) 编写一个 token_pattern=
,允许任何字符串作为标记传入。
默认排除很多,包括带连字符的字符串...
我最接近的是:
vectorizer = CountVectorizer(token_patten=r"(?u)\b\w\w+\b|!|\?|\"|\'")
来自 .
但是我在正则表达式方面缺乏技巧,所以我一直无法成功定制它。
我想通了。
这允许任何字符串。
vectorizer = CountVectorizer(token_pattern=r'.*')
我想为 CountVectorizer
(docs) 编写一个 token_pattern=
,允许任何字符串作为标记传入。
默认排除很多,包括带连字符的字符串...
我最接近的是:
vectorizer = CountVectorizer(token_patten=r"(?u)\b\w\w+\b|!|\?|\"|\'")
来自
但是我在正则表达式方面缺乏技巧,所以我一直无法成功定制它。
我想通了。
这允许任何字符串。
vectorizer = CountVectorizer(token_pattern=r'.*')