Doc2Vec 预训练和推断向量

Doc2Vec Pre training and Inferring vectors

假设我已经用 50000 个文档训练了 doc2vec 模型,我想为包含 36000 个文档的单独数据集推断向量。在这种情况下,推断向量对下游分类任务是否有效,因为我的假设是推断向量取决于训练模型的文档大小。

注意:两个数据集,即一个用于训练 doc2vec 的数据集和另一个用于推断向量的数据集都是独一无二的,但来自美国最高法院的同一领域。

如有不妥之处请指正

对于这么小的数据集,我能给出的任何答案都不会像尝试它看看它是否有效那样有用。

50000 对于训练集来说太小了,但一些有用的 Doc2Vec 结果是基于类似的语料库。

向量推理与训练一样,将任意长度的文档缩减为固定大小的向量。 (但请注意:gensim 默默地将任何输入 2Vec 模型的文本限制为 10000 个标记。)

但是,如果您已经在大约 1000 个单词的文档上训练了一个模型,然后尝试对 10 个单词的片段进行推理,那么这些文档向量可能不会像在文档上推断出与训练集更相似的向量。但是您仍然需要尝试一下才能找到答案。 (另请注意:在推理过程中完全忽略训练期间未学习的单词,因此以后对包含 many/all 个未知单词的文档的推理将很弱或毫无意义。)

您的推理文档是否属于这种情况 - 它们在大小和词汇方面与训练文档有很大不同?如果是这样,为什么? (能不能用更有代表性的文档来训练?)

如果 36000 篇文档的集合在训练开始前是固定的,那么将它们包含在无监督 Doc2Vec 训练中也可能是 valid/defensible。它们是数据,它们有助于学习领域术语,并且它们没有任何形式的 "right" 分类答案。