word2vec 中的词汇大小与向量大小

vocab size versus vector size in word2vec

我有一个包含 6200 个句子的数据（它们是 "sign_or_symptoms diagnoses Pathologic_function" 形式的三元组），但是这些句子中的唯一词（词汇）是 181，训练模型的合适向量大小是多少词汇量这么低的句子。是否有关于根据词汇量大小选择适当向量大小的任何资源或研究？

最佳做法是根据您真正的最终任务对其进行测试。

对于 word2vec 来说，这是一个非常小的语料库和词汇量。它可能根本不合适，因为它从大量不同的训练集中获得力量。

但好的一面是，您可以非常快速地运行使用不同参数进行大量试验！

您绝对不能使用与您的词汇量 (181) 一样大的向量维度，甚至非常接近。在这种情况下，该模型肯定会 'overfit' – 只是孤立地记住每个单词的效果，并进行 none 必要的权衡 'tug-of-war'，迫使单词 nearer/farther 彼此，这创建了 word2vec 模型的特殊 value/generality。

我非常宽松的经验法则是调查词汇量平方根周围的维度。而且，4 的倍数往往在底层数组例程中效果最好（至少在性能至关重要时，对于如此小的数据集可能不是这样）。所以我会先尝试 12 或 16 个维度，然后根据对您的实际任务的一些定量质量评估来探索其他 lower/higher 值。

但同样，您使用的数据集非常小，除非您的 'sentences' 实际上真的很长，否则 word2vec 对没有更多数据的您来说可能是一种非常薄弱的技术。

word2vec 中的词汇大小与向量大小

vocab size versus vector size in word2vec

word2vec

word-embedding