在 word2vec 中互为标量倍数的词向量之间预期的语义关系是什么?
What is the semantic relationship expected between word vectors which are scalar multiples of each other in word2vec?
假设您有一个单词 queen
的单词向量。它的一些标量倍数将是 x = queen + queen
, y = queen + queen + queen
和 n * queen
对于 n 的任何实数(因此我们也在考虑 n 的非整数值,例如 0.83 * queen
).
根据最相似词的投影权重向量的简单均值与向量queen+queen的余弦相似度,认为x为与向量queen+queen最相似的词
用同样的方法认为y是与向量queen + queen + queen最相似的词。
那么 x
、y
和 queen
之间的语义关系是什么?我知道这些向量在向量内的维度值之间的比率都相同,但我很难弄清楚如何根据词义来理解它。
我的直觉告诉我,我会在另一个上下文中得到一些东西,该上下文在该上下文中的位置类似于女王。例如,女王的 "wealth" 可能明显大于女王的 "beauty"。所以我会在另一个上下文中得到另一个词,它与 "queen" 具有相同的 wealth/beauty 平衡。
假设当我将女王乘以 n 时,我正在从皇家头衔(女王、国王、公主...)转移到福布斯榜单(杰夫贝索斯、比尔盖茨、沃伦巴菲特...)。
queen * n = 福布斯榜单上与女王 wealth/beauty 余额相同的人(非常富有,但不是很漂亮)
公主 * n = 福布斯榜单上与公主 wealth/beauty 余额相同的人(中等富裕,但非常漂亮)
不过这只是一个天马行空的理论,我不知道如何系统地证明这是真的。
对于任何 n
,与 wv['queen']
最余弦相似的词将与与 n * wv['queen']
最余弦相似的词完全相同,因为余弦相似度是不受矢量幅度的影响。所以,你的假设是错误的。
如果您在原始(非单位归一化)词向量上使用欧氏距离而不是余弦相似度,您可能会发现其他一些有趣的关系...但这不是 use/compare 词向量,所以你必须进行实验,我对你可能会发现什么或者它是否有用没有任何期望。
一般来说,原始非单位归一化词向量往往对具有单一狭义的词具有更高的量级(它们出现的所有上下文都非常相似),而具有多种意义的词和不同的上下文往往具有较小的幅度。但我不确定你能从中指望这一点。一旦词向量被归一化为单位长度——因此所有的词都在相同的 'unit sphere' 上——那么最近邻的 rank order 将是相同的余弦- distance 或 euclidean-distance(即使 distance/similarity 数字的大小在每个等级上都不相同或不成比例)。
假设您有一个单词 queen
的单词向量。它的一些标量倍数将是 x = queen + queen
, y = queen + queen + queen
和 n * queen
对于 n 的任何实数(因此我们也在考虑 n 的非整数值,例如 0.83 * queen
).
根据最相似词的投影权重向量的简单均值与向量queen+queen的余弦相似度,认为x为与向量queen+queen最相似的词
用同样的方法认为y是与向量queen + queen + queen最相似的词。
那么 x
、y
和 queen
之间的语义关系是什么?我知道这些向量在向量内的维度值之间的比率都相同,但我很难弄清楚如何根据词义来理解它。
我的直觉告诉我,我会在另一个上下文中得到一些东西,该上下文在该上下文中的位置类似于女王。例如,女王的 "wealth" 可能明显大于女王的 "beauty"。所以我会在另一个上下文中得到另一个词,它与 "queen" 具有相同的 wealth/beauty 平衡。
假设当我将女王乘以 n 时,我正在从皇家头衔(女王、国王、公主...)转移到福布斯榜单(杰夫贝索斯、比尔盖茨、沃伦巴菲特...)。
queen * n = 福布斯榜单上与女王 wealth/beauty 余额相同的人(非常富有,但不是很漂亮)
公主 * n = 福布斯榜单上与公主 wealth/beauty 余额相同的人(中等富裕,但非常漂亮)
不过这只是一个天马行空的理论,我不知道如何系统地证明这是真的。
对于任何 n
,与 wv['queen']
最余弦相似的词将与与 n * wv['queen']
最余弦相似的词完全相同,因为余弦相似度是不受矢量幅度的影响。所以,你的假设是错误的。
如果您在原始(非单位归一化)词向量上使用欧氏距离而不是余弦相似度,您可能会发现其他一些有趣的关系...但这不是 use/compare 词向量,所以你必须进行实验,我对你可能会发现什么或者它是否有用没有任何期望。
一般来说,原始非单位归一化词向量往往对具有单一狭义的词具有更高的量级(它们出现的所有上下文都非常相似),而具有多种意义的词和不同的上下文往往具有较小的幅度。但我不确定你能从中指望这一点。一旦词向量被归一化为单位长度——因此所有的词都在相同的 'unit sphere' 上——那么最近邻的 rank order 将是相同的余弦- distance 或 euclidean-distance(即使 distance/similarity 数字的大小在每个等级上都不相同或不成比例)。