Mikolov 2014 Paragraph2Vec 模型是否假定句子顺序？

Does Mikolov 2014 Paragraph2Vec models assume sentence ordering?

在 Mikolov 2014 年关于 paragraph2Vectors 的论文中，https://arxiv.org/pdf/1405.4053v2.pdf，作者是否假设在 PV-DM 和 PV-DBOW 中，句子的顺序需要有意义？

假设我正在处理推文流，每条推文都是一个段落。 paragraphs/tweets 不一定有顺序关系。训练后，段落的向量嵌入是否仍然有意义？

每个 document/paragraph 都被视为一个单独的训练单元——并且没有明确的方式让相邻文档直接影响文档的向量。所以文档的顺序不一定是自然的。

事实上，您通常不希望所有相似的文本示例聚集在一起——例如，所有关于某个主题或使用某个词汇的文本示例，在所有训练示例的前面或后面。这意味着这些示例都以相似的 alpha 学习率进行训练，并且影响所有相关词 而没有 与其他词交错偏移的示例。这些中的任何一个都可以使模型在所有可能的文档中稍微减少 balanced/general。出于这个原因，在训练 gensim Doc2Vec（或 Word2Vec）模型之前至少执行一次文本示例的初始洗牌可能会很好，如果您的自然排序可能不会分散所有 topics/vocabulary 词均匀地通过训练语料库。

PV-DM 模式（gensim 中的默认 dm=1 模式）确实涉及附近单词的滑动上下文-windows，因此每个示例中的单词接近度很重要。（不要打乱每个文本中的单词！）

Mikolov 2014 Paragraph2Vec 模型是否假定句子顺序？

Does Mikolov 2014 Paragraph2Vec models assume sentence ordering?

word2vec

sentence-similarity

doc2vec