从现有矩阵中获取特征向量
Obtaining feature vector from existing matrix
如果我使用 Scikit-learn 配置一个 CountVectorizer 对象,并将 M 个 n 个句子(长度不一)的矩阵传递给fit_transform 函数,例如我可以获得 n-gram 表示 F。像这样:
vectorizer = CountVectorizer(min_df = 1,
max_features = 2000,
ngram_range = (2, 2),
analyzer="word)
F = vectorizer.fit_transform(A)
这很好用。 F 现在的形状是 (2000, n) 因为我已经将 max_features 设置为 2000.
但是假设我又获得了一个句子,并且想生成一个与 F 的特征对齐并且具有相同长度(2000)的向量..是这甚至可能,还是我需要保留原始矩阵 M,向其中添加新句子,然后重新生成所有特征?
如果我理解您的问题,您可以使用 vectorizer.transform(['New sentence here'])
转换其他句子。
如果我使用 Scikit-learn 配置一个 CountVectorizer 对象,并将 M 个 n 个句子(长度不一)的矩阵传递给fit_transform 函数,例如我可以获得 n-gram 表示 F。像这样:
vectorizer = CountVectorizer(min_df = 1,
max_features = 2000,
ngram_range = (2, 2),
analyzer="word)
F = vectorizer.fit_transform(A)
这很好用。 F 现在的形状是 (2000, n) 因为我已经将 max_features 设置为 2000.
但是假设我又获得了一个句子,并且想生成一个与 F 的特征对齐并且具有相同长度(2000)的向量..是这甚至可能,还是我需要保留原始矩阵 M,向其中添加新句子,然后重新生成所有特征?
如果我理解您的问题,您可以使用 vectorizer.transform(['New sentence here'])
转换其他句子。