如果只对文档进行训练并推断句子，doc2vec 是否有用

Can doc2vec be useful if training on Documents and inferring on sentences only

我正在使用 gensim 的 Doc2vec 训练一些文档。

我有两种类型的输入：

另外，我想用这个模型来推断句子的大小（10~20个字）。

我要求澄清我的方法。
对文档进行训练（每个文档的大小约为 100 个句子）然后推断新句子的方法是否正确。？

或者，我应该只训练句子而不训练文档，然后推断新句子吗？

每个语料库和项目目标都不同。您对较大的文档进行训练然后推断较短的句子的方法似乎可行，但您必须尝试看看效果如何，然后反复测试较短的训练文档（如单个句子或句子组）是否效果更好，为了您的特定目标。

请注意，gensim Doc2Vec 推理通常从非默认参数中获益——尤其是更多 steps（比微小的默认值 5）或更小的起始 alpha（更像是 0.025 的训练默认值），尤其是在较短的文档上。而且，根据原始模型元参数，该推断也可能更好或更差。

另请注意，实施限制意味着长度超过 10,000 个标记的文本在 gensim Word2Vec/Doc2Vec 训练中被静默截断。（如果你有更长的文档，你可以将它们拆分成少于 10K-token 的子文档，然后对每个子文档重复 tags，以模拟使用更长文档进行训练的效果。）