使用 doc2vec 获得良好性能所需的最小数据集大小是多少?

what is the minimum dataset size needed for good performance with doc2vec?

在不同大小的数据集上训练时,doc2vec 的表现如何?原始语料库中没有提及数据集大小,所以我想知道从 doc2vec 获得良好性能所需的最小大小是多少。

一堆东西被称为 'doc2vec',但它似乎最常指的是 Le 和 Mikolov 的 'Paragraph Vector' 技术。

原文'Paragraph Vector' paper描述了在三个数据集上对其进行评估:

  • 'Stanford Sentiment Treebank':11,825 句影评(进一步分解为 239,232 个片段短语,每个片段只有几个词)
  • 'IMDB Dataset':100,000 条影评(通常每条只有几百字)
  • 搜索结果 'snippet' 段落:10,000,000 个段落,收集自前 10 个 Google 搜索结果中每个最常见查询的前 1,000,000 个

前两个是公开可用的,因此您还可以查看它们的总字数、典型文档大小和词汇表。 (不过请注意,没有人能够在前两个数据集的任何一个上完全重现该论文的情感分类结果,这意味着他们的报告中缺少一些信息或错误。有可能接近 IMDB 数据集。)

A followup paper 将该算法应用于发现数据集中的主题关系:

  • 维基百科:4,490,000 篇文章正文
  • Arxiv:从 PDF 中提取的 886,000 篇学术论文文本

所以那两篇早期论文使用的语料库从几万到几百万文档,文档大小从几个词组到几千词的文章。 (但这些作品不一定混合大小不同的文档。)

一般来说,word2vec/paragraph-vector 技术受益于大量数据和各种单词上下文。如果没有至少数万份文件,我不会期待好的结果。长度超过几个单词的文档效果更好。如果在同一训练中混合使用大小或种类大不相同的文档(例如混合推文和书籍),结果可能更难解释。

但是你真的必须用你的语料库和目标来评估它,因为出于某些目的,适用于某些数据的方法可能无法推广到非常不同的项目。