训练 doc2Vec 模型实际需要多少数据?

How much data is actually required to train a doc2Vec model?

我一直在使用 gensim 的 库来训练 doc2Vec 模型。在尝试了不同的训练数据集之后,我对 doc2Vec 模型的理想训练数据大小应该是多少感到相当困惑?

我将在这里分享我的理解。请随时纠正 me/suggest 更改 -

  1. 在通用数据集上训练-如果我想使用在通用数据集上训练的模型,在特定用例中,我需要训练很多数据。
  2. 在上下文相关的数据集上训练-如果我想在与我的用例具有相同上下文的数据上训练它,通常训练数据的大小可以更小.

但是在这两种情况下,用于训练的单词数量是多少?

一般来说,当误差图达到 "elbow point" 时,我们会停止训练 ML 模型,进一步的训练不会显着减少误差。有没有朝这个方向进行研究 - doc2Vec 模型的训练在到达肘部后停止?

没有绝对的指导方针——这在很大程度上取决于您的数据集和特定的应用程序目标。 Doc2Vec 发表的作品中使用的数据集大小有一些讨论:

如果您的通用语料库与您所在领域的词汇不匹配——包括相同的词,或使用相同意义的词——这是一个仅靠 "a lot of data" 无法解决的问题。更多的数据可以 'pull' 单词上下文和表示更接近 wards 通用值,而不是特定领域的值。

您确实需要拥有自己的定量、自动化 evaluation/scoring 方法,这样您就可以衡量您的特定数据和目标的结果是否足够,或者是否可以通过更多数据或其他训练调整进行改进。

有时参数调整可以帮助充分利用精简数据——特别是,更多的训练迭代或更小的模型(更少的向量维度)有时可以稍微抵消小语料库的一些问题。但是 Word2Vec/Doc2Vec 确实受益于许多细微变化的、特定领域的数据——它是训练期间所有文本示例之间不断的、增量的拔河 war帮助最终表示融入有用的星座安排,具有所需的 relative-distance/relative-direction 属性。