Mikolov 2014 Paragraph2Vec 模型是否假定句子顺序?

Does Mikolov 2014 Paragraph2Vec models assume sentence ordering?

在 Mikolov 2014 年关于 paragraph2Vectors 的论文中,https://arxiv.org/pdf/1405.4053v2.pdf,作者是否假设在 PV-DM 和 PV-DBOW 中,句子的顺序需要有意义?

假设我正在处理推文流,每条推文都是一个段落。 paragraphs/tweets 不一定有顺序关系。训练后,段落的向量嵌入是否仍然有意义?

每个 document/paragraph 都被视为一个单独的训练单元——并且没有明确的方式让相邻文档直接影响文档的向量。所以文档的顺序不一定是自然的。

事实上,您通常希望所有相似的文本示例聚集在一起——例如,所有关于某个主题或使用某个词汇的文本示例,在所有训练示例的前面或后面。这意味着这些示例都以相似的 alpha 学习率进行训练,并且影响所有相关词 而没有 与其他词交错偏移的示例。这些中的任何一个都可以使模型在所有可能的文档中稍微减少 balanced/general。出于这个原因,在训练 gensim Doc2Vec(或 Word2Vec)模型之前至少执行一次文本示例的初始洗牌可能会很好,如果您的自然排序可能不会分散所有 topics/vocabulary 词均匀地通过训练语料库。

PV-DM 模式(gensim 中的默认 dm=1 模式)确实涉及附近单词的滑动上下文-windows,因此每个示例中的单词接近度很重要。 (不要打乱每个文本中的单词!)