使用word2vec词嵌入作为特征向量进行文本分类(类似于countvectorizer/tfidf特征向量)

Use word2vec word embeding as feature vector for text classification (simlar to count vectorizer/tfidf feature vector)

我正在尝试使用机器学习执行一些文本分类,为此我使用简单的词袋方法(计数向量化器)和 tfidf 向量化器从每个处理过的文本数据中提取特征向量。

现在我想使用 word2vec,即词嵌入作为我的特征向量,类似于 count vectorizer/tfidf vectorizer,我应该能够从训练数据中学习词汇,并使用学过词汇,但我找不到实现它的方法。

//I need something like this with word2vec

count = CountVectorizer()
train_feature_ vector =count.fit_transform(train_data)
test_feature_vector = count.fit(test_data)

//So I can train my model like this
mb = MultinomialNB()
mb.fit(train_feature_vector,y_train)
acc_score = mb.score(test_feature_vector,y_test)
print("Accuracy "+str(acc_score))

您首先应该了解什么是词嵌入。当您应用 CountVectorizer 或 TfIdfVectorizer 时,您得到的是一种稀疏方式的 sentence 表示,通常称为 One Hot 编码。词嵌入表示用于在高维 space 实数中表示

一旦你获得了每个词的表示,有一些方法可以做到这一点,检查:How to get vector for a sentence from the word2vec of tokens in sentence