一个词向量的中心

The center of a word vector

我正在研究 NLP 并专注于通过多层感知器的步骤。由于向量是 space 中的大小和方向,我很好奇单词向量的中心代表什么。在一个非常简单的向量中,我的单词可能是 21,-5。 0,0代表什么吗?如果不是,它能代表训练模型后的东西吗?

如果我没理解错的话,一个从未见过的词会被赋予一个数字恒等式和一个M维的向量。然后该向量进入第一层,该层具有与维度一样多的节点,因此在本例中为 M 个节点。通过反向传播,权重发生变化,使得相似词 "group" 一起出现在向量 space 中。 (这意味着词向量本身永远不会从它们的初始随机值修改,对吗?)如果我在这里做出了错误的假设,请纠正我。我会很感激一些见解。

您可以将单词 'vectors' 的数字视为点。它们都在原点 'start' ([0.0, 0.0, 0.0, ..., 0.0]) 并不重要。

任何此类向量的 'center' 只是它的中点,它也是相同 'directionality' 的一半大小的向量。 经常但不总是,词向量只根据原始方向进行比较,不是大小,通过'cosine similarity',这是本质上是一个忽略 length/magnitude 的角度差计算。 (因此,cosine_similarity(a, b) 将与 cosine_similarity(a/2, b)cosine_similarity(a, b*4) 等同。)所以您询问的这个 'center'/半长实例通常意义不大,使用词向量,而不是其他向量模型。通常,只要您使用余弦相似度作为比较向量的主要方法,将它们移近原点就无关紧要了。所以,在那个框架中,原点并没有真正明确的含义。

关于大小的警告:word2vec 训练创建的实际原始向量实际上具有各种大小。一些人观察到,这些幅度有时与有趣的单词差异相关——例如,高度多义词(具有许多替代含义)通常比具有单一主要含义的单词的幅度更低——因为需要 "do something useful" 在替代上下文中在训练期间在极端之间拉扯矢量,使其更多 "in the middle"。虽然词与词的比较通常会为了纯粹的 angular 余弦相似性而忽略这些幅度,但有时下游用途(例如文本分类)可能会逐渐更好地保持原始幅度。

关于原点的警告:至少有一篇论文,“All-but-the-Top: Simple and Effective Postprocessing for Word Representations”,由 Mu、Bhat 和 Viswanath 撰写,观察到所有词向量的 'average' 通常不是t 原点,但明显偏向一个方向——这(在我的程式化理解中)有点让整个 space 不平衡,就它是否使用 'all angles' 来表示对比而言-意义。 (此外,在我的实验中,这种不平衡的程度似乎是负采样中使用了多少 negative 个示例的函数。)他们发现对向量进行后处理以使它们重新居中可以提高某些任务的性能,但我'我还没有看到很多其他项目将此作为标准步骤。 (他们还建议对本质上 'increase contrast in the most valuable dimensions' 进行一些其他后处理转换。)

关于你的"IIUC",是的,单词被赋予起始向量 - 但是这些是随机的,然后通过反向传播不断调整,在尝试每次训练后重复反过来,为了使那些 'input word' 向量作为尝试预测附近 'target/center/output' 单词的神经网络的输入稍微好一点。两个网络 'internal'/'hidden' 权重都进行了调整,input vectors 本身,它们本质上是 'projection weights' – 来自单个词汇表的单热表示,'to' M 个不同的内部隐藏层节点。也就是说,每个 'word vector' 本质上都是神经网络内部权重的特定单词子集。

要添加到 Radim 的答案 - 关于 0 向量(原点),需要注意的是虽然 0 向量是 的一部分数学域R^d,即d 维度的笛卡尔(嵌入)space 与通常向量 space 加法和标量乘法运算,从实际的角度来看,您可能永远不会遇到 0 向量

这是因为一个词的参数(它的向量表示)是用形式的随机梯度下降更新的

w(t+1)_j <-- w(t)_j + (error)*input_j, 

即,给定单词的权重向量的第 j 个分量根据预测其上下文的错误进行更新,(input_j 是单词初始编码的第 j 个分量),它是非常不可能对于任何单词所有这些参数都会收敛到 0。

所以,虽然从理论上讲,0 向量可能有意义,但从实际的角度来看,它永远不是嵌入 space 的一部分(即它本身不是一个词,您也不太可能将 0 向量作为一组单词的质心出现)。