使用word2vec词嵌入作为特征向量进行文本分类（类似于countvectorizer/tfidf特征向量）

Use word2vec word embeding as feature vector for text classification (simlar to count vectorizer/tfidf feature vector)

我正在尝试使用机器学习执行一些文本分类，为此我使用简单的词袋方法（计数向量化器）和 tfidf 向量化器从每个处理过的文本数据中提取特征向量。

现在我想使用 word2vec，即词嵌入作为我的特征向量，类似于 count vectorizer/tfidf vectorizer，我应该能够从训练数据中学习词汇，并使用学过词汇，但我找不到实现它的方法。

//I need something like this with word2vec

count = CountVectorizer()
train_feature_ vector =count.fit_transform(train_data)
test_feature_vector = count.fit(test_data)

//So I can train my model like this
mb = MultinomialNB()
mb.fit(train_feature_vector,y_train)
acc_score = mb.score(test_feature_vector,y_test)
print("Accuracy "+str(acc_score))

您首先应该了解什么是词嵌入。当您应用 CountVectorizer 或 TfIdfVectorizer 时，您得到的是一种稀疏方式的 sentence 表示，通常称为 One Hot 编码。词嵌入表示用于在高维 space 实数中表示词。

一旦你获得了每个词的表示，有一些方法可以做到这一点，检查：How to get vector for a sentence from the word2vec of tokens in sentence