Word2Vec 的特征是否相互独立?

Are the features of Word2Vec independent each other?

我是NLP新手,正在学习Word2Vec。所以我对Word2Vec的概念没有完全理解。

Word2Vec的特征是相互独立的吗?

例如,假设有一个100维的word2vec。那么这100个特征是相互独立的?也就是说,如果把特征的"sequence"打乱,那么word2vec的意义就变了?

Word2vec 是一个 'dense' 嵌入:各个维度通常不能独立解释。只是 'neighborhoods' 和 'directions'(不限于 100 个正交轴维度)具有有用的含义。

因此,从统计意义上讲,它们彼此并不 'independent'。但是,您可以丢弃任何维度——例如,所有 100 维向量的最后 50 个维度——你仍然有可用的词向量。所以从这个意义上说,它们仍然独立有用。

如果您打乱维度顺序,对集合中的每个向量都采用相同的方式,那么基本上 rotated/reflected 所有向量都是类似的。它们都有不同的坐标,但是它们的相对距离是相同的,如果 "going toward word B from word A" 用于模糊地表示一些人类可以理解的方面,比如 "largeness",那么即使在执行维度顺序洗牌之后,"going towards word B from word A" 也意味着同样的事情,因为向量 "thataway"(在转换后的坐标中)将与以前相同。

这里首先要了解的是word2Vec是如何形式化的。与传统的单词表示不同,word2vec 模型试图将世界的意义编码为不同的特征。例如,让我们说英语词典中的每个单词都可以在一组说“4”的特征中体现出来。特征可以是,假设 "f1":"gender", "f2":"color","f3":"smell","f4":"economy".

所以现在当一个 word2vec 向量被写出来时,它表示的是它有多少特定特征的表现形式。让我们举个例子来理解这一点。考虑一个 Man(V1),他皮肤黝黑,不那么臭,不是很富有,也不穷。然后第一个特征即性别表示为 1(因为我们将 1 视为男性,将 -1 视为女性)。第二个特征颜色在这里是 -1,因为它与白色(我们将其视为 1)正好相反。给定 0.3 和 0.4 值,气味和经济性相似。 现在考虑另一个人(V2),他也具有与第一个人相同的解剖结构和社会地位。那么他的word2vec vector也会类似。

V1=>[1,-1,0.3,0.4]

V2=>[1,-1,0.4,0.3]

这种表示有助于我们将单词表示为与每个 other.The 独立或正交的特征,正交性有助于根据一些数学运算(比如余弦点积)找到相似性或不同性。 word2vec 中数字的顺序很重要,因为每个数字都代表特定特征的权重:性别、颜色、气味、经济性。所以改组位置会导致完全不同的向量