使用来自 Gensim Word2Vec 模型的权重作为另一个模型的起点

Using weight from a Gensim Word2Vec model as a starting point of another model

我有两个来自同一领域的语料库，但有时间上的变化，比如十年。我想在它们上训练 Word2vec 模型，然后研究影响语义转换的不同因素。

我想知道我应该如何使用第一个模型的嵌入来初始化第二个模型，以尽可能避免共现估计中方差的影响。

在天真和简单的层面上，您可以只加载一个现有模型，然后 .train() 加载新数据。但请注意，如果这样做：

模型不认识的任何词都将被忽略，算法步骤中的词频将仅来自初始调查
虽然当前语料库中的所有单词都将根据它们的外观（以及您的 epochs 设置）指示获得尽可能多的训练更新，因此被任意推离它们的原始模型位置，换句话说来自种子模型的将完全保持在原处。但是，只有在同一训练课程中单词之间的交错拔河 war 才能使它们具有有用的可比性。因此，进行这种顺序训练——在新的训练课程中只更新一些单词——可能会以难以衡量的方式降低单词与单词比较的意义。

另一种可能值得尝试的方法是在组合语料库上训练单一模型 - 但 transform/repeat 时代特定 texts/words 在某些方面能够区分早期用法和以后的用法。在之前的几个答案中，在词向量随使用时代变化的上下文中，有关于此建议的更多详细信息：