Word2Vec-词嵌入会改变吗?

Word2Vec- does the word embedding change?

只想知道有没有2句-

  1. 银行在public节假日
  2. 保持关闭
  3. 不要靠近河边银行

单词'bank'会有不同的词嵌入还是相同的?如果我们使用 word2vec 或 glove?

您无法在仅 2 个文本上有意义地训练密集词嵌入。您需要这些,以及数十个(最好是数百个)在 subtly-varying 上下文中使用 'bank' 的示例,以便为 'bank' 获得良好的 word-vector。 (并且 word-vector 仅在与同一训练模型中其他 well-sampled 单词的其他 word-vector 相比才有意义。)

让我们假设您确实有一个大型、多样化的训练语料库,其中包含许多 'bank' 上下文中的示例。并且您已经在该语料库上训练了一个模型,word2vec 或 GLoVe。

然后,假设语料库发生了变化,因此包含 'river' 意义的上下文相对更多。 (也许,添加了一堆关于自然、公园、划船和灌溉的新文本。)然后,您在新语料库上从头开始重新训练您的模型。

在新模型中,'bank'(和相关词)通常会被推动以拥有更多类似 'river bank' 的邻居。

总的来说,这些词可能处于完全不同的坐标,因为每个 运行 都包含足够的随机性来大量改变词的结束位置。但是它们的 相对邻域 相对方向 与随后的 运行 以及示例组合的变化往往具有相似的值将倾向于朝一个方向或另一个方向推动结果。

GLoVe 和 word2vec 都是这种情况:它们的最终结果都会受到交替词义相对优势的影响。

(具有多重对比意义的词在相关文献中通常称为 'polysemy',因此像 [polysemy word-vectors] 这样的搜索应该会出现更多与您的问题相关的工作.)