如何连接单词向量以形成句子向量

How to concatenate word vectors to form sentence vector

我在一些文章(Tomas Mikolov...)中了解到,形成句子向量的更好方法是连接单词向量。

但是由于本人数学比较笨拙,具体细节还是不太清楚

例如,

设词向量的维度为m;并且一个句子有n个词。

拼接运算的正确结果是什么?

是1 x m*n的行向量吗?或 m x n 的矩阵 ?

至少有三种组合嵌入向量的常用方法; (a) 求和,(b) 求和和平均或 (c) 连接。所以在你的情况下,通过连接,这会给你一个 1 x m*a 向量,其中 a 是句子的数量。在其他情况下,矢量长度保持不变。请参阅 gensim.models.doc2vec.Doc2Vecdm_concatdm_mean - 它允许您使用这三个选项中的任何一个 [1,2]。

[1] http://radimrehurek.com/gensim/models/doc2vec.html#gensim.models.doc2vec.LabeledLineSentence

[2]https://github.com/piskvorky/gensim/blob/develop/gensim/models/doc2vec.py