word2vec 在 text.Why?
word2vec gives vectors of very few words in a text.Why?
当我提供文本文档作为 word2vec 的输入时。它将向量分配给文本词汇表中的极少数单词。为什么会这样?以及如何克服这个问题?
我认为您看到创建的向量很少的原因是您的语料库太小。 Word2vec 将从词汇表中删除不常出现的单词。这是由 t-min-count 命令行开关控制的。原始源代码的默认设置为 5。任何在语料库中出现次数少于此次数的单词都将被删除。
当我提供文本文档作为 word2vec 的输入时。它将向量分配给文本词汇表中的极少数单词。为什么会这样?以及如何克服这个问题?
我认为您看到创建的向量很少的原因是您的语料库太小。 Word2vec 将从词汇表中删除不常出现的单词。这是由 t-min-count 命令行开关控制的。原始源代码的默认设置为 5。任何在语料库中出现次数少于此次数的单词都将被删除。