Word2Vec 的特征是否相互独立？

Are the features of Word2Vec independent each other?

我是NLP新手，正在学习Word2Vec。所以我对Word2Vec的概念没有完全理解。

Word2Vec的特征是相互独立的吗？

例如，假设有一个100维的word2vec。那么这100个特征是相互独立的？也就是说，如果把特征的"sequence"打乱，那么word2vec的意义就变了？

Word2vec 是一个 'dense' 嵌入：各个维度通常不能独立解释。只是 'neighborhoods' 和 'directions'（不限于 100 个正交轴维度）具有有用的含义。

因此，从统计意义上讲，它们彼此并不 'independent'。但是，您可以丢弃任何维度——例如，所有 100 维向量的最后 50 个维度——你仍然有可用的词向量。所以从这个意义上说，它们仍然独立有用。

如果您打乱维度顺序，对集合中的每个向量都采用相同的方式，那么基本上 rotated/reflected 所有向量都是类似的。它们都有不同的坐标，但是它们的相对距离是相同的，如果 "going toward word B from word A" 用于模糊地表示一些人类可以理解的方面，比如 "largeness"，那么即使在执行维度顺序洗牌之后，"going towards word B from word A" 也意味着同样的事情，因为向量 "thataway"（在转换后的坐标中）将与以前相同。

这里首先要了解的是word2Vec是如何形式化的。与传统的单词表示不同，word2vec 模型试图将世界的意义编码为不同的特征。例如，让我们说英语词典中的每个单词都可以在一组说“4”的特征中体现出来。特征可以是，假设 "f1":"gender", "f2":"color","f3":"smell","f4":"economy".

所以现在当一个 word2vec 向量被写出来时，它表示的是它有多少特定特征的表现形式。让我们举个例子来理解这一点。考虑一个 Man(V1)，他皮肤黝黑，不那么臭，不是很富有，也不穷。然后第一个特征即性别表示为 1（因为我们将 1 视为男性，将 -1 视为女性）。第二个特征颜色在这里是 -1，因为它与白色（我们将其视为 1）正好相反。给定 0.3 和 0.4 值，气味和经济性相似。现在考虑另一个人（V2），他也具有与第一个人相同的解剖结构和社会地位。那么他的word2vec vector也会类似。

V1=>[1,-1,0.3,0.4]

V2=>[1,-1,0.4,0.3]

这种表示有助于我们将单词表示为与每个 other.The 独立或正交的特征，正交性有助于根据一些数学运算（比如余弦点积）找到相似性或不同性。 word2vec 中数字的顺序很重要，因为每个数字都代表特定特征的权重：性别、颜色、气味、经济性。所以改组位置会导致完全不同的向量

Word2Vec 的特征是否相互独立？

Are the features of Word2Vec independent each other?

nlp

text-classification

word2vec

word-embedding