如何过滤 CountVectorizer 中的特征?
How to filter features from CountVectorizer?
我正在进行文本分析(主题建模),当我 运行 通过 CountVectorizer
时,我得到了一堆与我的需求完全无关的数字、日期和位置。我以为我会输入 preprocessing function, but the scikit-learn page for preprocessing 似乎没有构建预处理器所需的任何信息。
您可以更改 CountVectorizer
中的 token_pattern
参数。
令牌模式是表示什么构成“令牌”的正则表达式,仅在analyzer == 'word'
时使用。令牌模式的类型是字符串。
默认 token_pattern=r"(?u)\b\w\w+\b"
。 2 个或更多字母数字字符的默认正则表达式 select 标记(标点符号被完全忽略并始终被视为标记分隔符)。您可以更改它以满足您的需要(例如忽略日期)。
我正在进行文本分析(主题建模),当我 运行 通过 CountVectorizer
时,我得到了一堆与我的需求完全无关的数字、日期和位置。我以为我会输入 preprocessing function, but the scikit-learn page for preprocessing 似乎没有构建预处理器所需的任何信息。
您可以更改 CountVectorizer
中的 token_pattern
参数。
令牌模式是表示什么构成“令牌”的正则表达式,仅在analyzer == 'word'
时使用。令牌模式的类型是字符串。
默认 token_pattern=r"(?u)\b\w\w+\b"
。 2 个或更多字母数字字符的默认正则表达式 select 标记(标点符号被完全忽略并始终被视为标记分隔符)。您可以更改它以满足您的需要(例如忽略日期)。