从现有矩阵中获取特征向量

Obtaining feature vector from existing matrix

如果我使用 Scikit-learn 配置一个 CountVectorizer 对象,并将 Mn 个句子(长度不一)的矩阵传递给fit_transform 函数,例如我可以获得 n-gram 表示 F。像这样:

vectorizer = CountVectorizer(min_df = 1,
                             max_features = 2000,
                             ngram_range = (2, 2),
                             analyzer="word)

F = vectorizer.fit_transform(A)

这很好用。 F 现在的形状是 (2000, n) 因为我已经将 max_features 设置为 2000.

但是假设我又获得了一个句子,并且想生成一个与 F 的特征对齐并且具有相同长度(2000)的向量..是这甚至可能,还是我需要保留原始矩阵 M,向其中添加新句子,然后重新生成所有特征?

如果我理解您的问题,您可以使用 vectorizer.transform(['New sentence here']) 转换其他句子。