使用 Doc2Vec 进行情感分类

Sentiment Classification using Doc2Vec

我对如何将 Doc2Vec(使用 Gensim) 用于 IMDB 情感分类数据集感到困惑。在对我的语料库进行训练后,我得到了 Doc2Vec 嵌入,并使用它构建了我的逻辑回归模型。我如何使用它来预测新评论? sklearn TF-IDF 有一个 transform 方法,可以在训练数据训练后用于测试数据,它在 Gensim Doc2Vec 中的等价物是什么?

要获取未见文档的向量,请使用 vector = model.infer_vector(["new", "document"]) 然后将 vector 送入您的分类器:preds = clf.predict([vector]).

您是否看过演示笔记本,通过 gensim-3.8.1 包含在 gensim 源代码中,它适用于 Doc2Vec IMDB 数据集?

https://github.com/RaRe-Technologies/gensim/blob/3.8.1/docs/notebooks/doc2vec-IMDB.ipynb