如何解释gensim word2vec输出？

Question

我运行下面的代码，只是想知道为什么“曝光”的前 3 个最相似的词不包括“充电”和“借出”？

from gensim.models import Word2Vec
corpus = [['total', 'exposure', 'charge', 'lend'],
          ['customer', 'paydown', 'rate', 'months', 'month']]
gens_mod = Word2Vec(corpus, min_count=1, vector_size=300, window=2, sg=1, workers=1, seed=1)
keyword="exposure"
gens_mod.wv.most_similar(keyword)

Output:
[('customer', 0.12233059108257294),
 ('month', 0.008674687705934048),
 ('total', -0.011738087050616741),
 ('rate', -0.03600010275840759),
 ('months', -0.04291829466819763),
 ('paydown', -0.044823747128248215),
 ('lend', -0.05356598272919655),
 ('charge', -0.07367636263370514)]

Answer 1

word2vec 算法仅对大量训练数据有用且有价值，其中每个感兴趣的单词都有各种现实的、微妙对比的用法示例。

玩具大小的数据集不会显示其价值。设置 min_count=1 总是一个坏主意。而且，尝试从只有 9 个词、9 个独特词和大多数具有完全相同邻居的词的语料库中训练 300 维词向量是荒谬的。

在更真实的数据集上尝试 - 数以万计的独特单词，所有单词都有多个用法示例 - 你会看到更直观正确的相似性结果。

如何解释gensim word2vec输出？

How to explain gensim word2vec output?

python

nlp

gensim

word2vec

word-embedding