使用 CountVectorizer 为 LDA 主题模型准备数据集
Prepare dataset for the LDA topic models using CountVectorizer
我想使用 Scikit
中的 CountVectorizer
创建一个供 LDA
模型使用的矩阵。但是我的数据集是一系列编码术语,例如以下形式:
(1-2252, 5-5588, 10-5478, 2-9632 ....)
我怎样才能告诉 CountVectorizer
考虑每一对数据,即 1-2252
作为一个词
幸运的是,我找到了一个 helpful 博客给了我答案。
因为我使用了以下方法来标记文本:
import re
REGEX = re.compile(r",\s*")
def tokenize(text):
return [tok.strip().lower() for tok in REGEX.split(text)]
并将分词器传递给 CountVectorizer
,如下所示:
tf = CountVectorizer(tokenizer=tokenize)
我想使用 Scikit
中的 CountVectorizer
创建一个供 LDA
模型使用的矩阵。但是我的数据集是一系列编码术语,例如以下形式:
(1-2252, 5-5588, 10-5478, 2-9632 ....)
我怎样才能告诉 CountVectorizer
考虑每一对数据,即 1-2252
作为一个词
幸运的是,我找到了一个 helpful 博客给了我答案。
因为我使用了以下方法来标记文本:
import re
REGEX = re.compile(r",\s*")
def tokenize(text):
return [tok.strip().lower() for tok in REGEX.split(text)]
并将分词器传递给 CountVectorizer
,如下所示:
tf = CountVectorizer(tokenizer=tokenize)