如何从 Countvectorizer token_pattern 中保留 #hashtag 和 @mention 特征符

Question

我使用 sklearn 库从推文中提取字数。但是我在删除一些特殊字符时遇到了问题。我想保留 CountVectorizer 对象中的“#”和“@”字符。

默认token_pattern参数为：token_pattern='(?u)\b\w\w+\b'

例如在这个语料库上...

['@terör @terör #terör ak @terör ali ali ...']

...输出为：

['ak', 'ali', 'terör', ...]

CountVectorizer 的默认正则表达式会删除特殊字符。我怎样才能保留这些字符？

Answer 1

我用 ; 更改参数

token_pattern=r'\b\w\w+\b|(?<!\w)@\w+|(?<!\w)#\w+')

输出如愿以偿；

['@terör', '#terör', ...]

How to preserve #hashtag and @mention characterizers from Countvectorizer token_pattern