如何从gensim Word2Vec嵌入向量中嵌入句子？

Question

我有一个包含描述的 pandas 数据框。我想根据含义对描述进行聚类 CBOW。我现在的挑战是将每一行嵌入到等维向量中。起初我使用 gensim 训练单词向量，如下所示：

from gensim.models import Word2Vec

vocab = pd.concat((df['description'], df['more_description']))
model = Word2Vec(sentences=vocab, size=100, window=10, min_count=3, workers=4, sg=0)

不过，我现在对如何用等维文档向量替换 df 中的完整句子感到有点困惑。

目前，我的解决方法是用一个向量重新排列每行中的每个单词，然后应用 PCA 降维使每个向量具有相似的维度。 gensim 有没有更好的方法，这样我就可以这样说：

df['description'].apply(model.vectorize)

Answer 1

我认为您正在寻找句子嵌入。有很多方法可以从词嵌入中生成句子嵌入。您可能会发现这很有用：https://stats.stackexchange.com/questions/286579/how-to-train-sentence-paragraph-document-embeddings

如何从gensim Word2Vec嵌入向量中嵌入句子？

How to sentence embed from gensim Word2Vec embedding vectors?

python-3.x

gensim

word2vec

word-embedding

doc2vec