如何从 Countvectorizer token_pattern 中保留 #hashtag 和 @mention 特征符
How to preserve #hashtag and @mention characterizers from Countvectorizer token_pattern
我使用 sklearn 库从推文中提取字数。但是我在删除一些特殊字符时遇到了问题。我想保留 CountVectorizer
对象中的“#”和“@”字符。
默认token_pattern参数为:token_pattern='(?u)\b\w\w+\b'
例如在这个语料库上...
['@terör @terör #terör ak @terör ali ali ...']
...输出为:
['ak', 'ali', 'terör', ...]
CountVectorizer
的默认正则表达式会删除特殊字符。我怎样才能保留这些字符?
我用 ; 更改参数
token_pattern=r'\b\w\w+\b|(?<!\w)@\w+|(?<!\w)#\w+')
输出如愿以偿;
['@terör', '#terör', ...]
我使用 sklearn 库从推文中提取字数。但是我在删除一些特殊字符时遇到了问题。我想保留 CountVectorizer
对象中的“#”和“@”字符。
默认token_pattern参数为:token_pattern='(?u)\b\w\w+\b'
例如在这个语料库上...
['@terör @terör #terör ak @terör ali ali ...']
...输出为:
['ak', 'ali', 'terör', ...]
CountVectorizer
的默认正则表达式会删除特殊字符。我怎样才能保留这些字符?
我用 ; 更改参数
token_pattern=r'\b\w\w+\b|(?<!\w)@\w+|(?<!\w)#\w+')
输出如愿以偿;
['@terör', '#terör', ...]