单词在 TSNE 图中出现不止一次

Question

绘制词嵌入 TSNE 结果时，词出现不止一次。

我正在降低 Word2Vec 词嵌入的维度，但是当我绘制最相似词的子集的结果时（手动输入几个我想要最相似词的词），相同的词出现得更多不止一次：

from sklearn.manifold import TSNE

words = sum([[k] + v for k, v in similar_words.items()], [])
wvs = model.wv[words]

tsne = TSNE(n_components=3, random_state=0, n_iter=10000, perplexity=29)
np.set_printoptions(suppress=True)
T = tsne.fit_transform(wvs)
labels = words

plt.figure(figsize=(16, 12))
plt.scatter(T[:, 0], T[:, 1], c='purple', edgecolors='purple')
for label, x, y in zip(labels, T[:, 0], T[:, 1]):
    plt.annotate(label, xy=(x+1, y+1), xytext=(0, 0), textcoords='offset points')

这是 PCA 和 TSNE 词相似度降维的正常行为，还是我的代码有问题？情节是否有可能将每个相似的词子集视为彼此独立？

Answer 1

每个词都有两个向量：作为中心词和作为上下文词。 Stanford University word2vec lecture 从 41:37 开始。

单词在 TSNE 图中出现不止一次

Word shows up more than once in TSNE plot

nlp

matplotlib

scikit-learn

word2vec

word-embedding