嵌入中的每个元素是什么意思?

What does each element in an embedding mean?

我一直在研究面部嵌入,但我认为 Word2Vec 是一个更常见的例子。

该矩阵中的每个条目都是来自某个预测 program/algorithm 的数字,但它们是什么?它们是习得的特征吗?

这些数字是学习到的向量,每个向量代表一个维度,可以最好地将每个单词彼此分开,给定一些有限的维度(通常为 ~200)。因此,如果一组词倾向于出现在相同的上下文中,那么它们很可能在一个或多个维度上共享相似的分数。

例如,北、南、东、西等词可能非常接近,因为它们在许多上下文中可以互换。

维度是由算法选择的,以最大化它们编码的方差,它们的含义不一定是我们可以用语言表达的。但是想象一袋冰箱磁铁,每个冰箱磁铁代表一个字母——如果你用光照射它们以投射阴影,字母的某些方向会在阴影中产生比其他方向更多的辨别信息.

词嵌入中的维度代表了最好的 "orientations",为最具歧视性的 "shadows" 提供了光照。有时,这些维度可能近似于我们认为具有直接意义的事物,但通常情况下,它们不会。

也就是说,如果您收集确实具有相似功能的词,并找到从这些词到其他词的向量,这些词是某种固定关系的端点——比如英国、法国、德国作为一组由Countries组成的词,而London, Paris, Berlin作为另一组由各自Capital-Cities组成的词,你会发现每个国家和它的首都之间的relative向量往往非常, 在方向和大小上都非常相似。

这有一个搜索应用程序,因为您可以从一个新词位置开始,比如 "Argentina",然后通过应用相对 "has_capital_city" 向量查看到达的位置,您 应该得到单词"Buenos Aires".

所以原始维度本身可能没有什么意义,但是通过执行这些 A 是 B 就像 X 是 Y 的比较,可以导出确实具有某种意义的相对向量。