词向量方向是否通用?
Are word-vector orientations universal?
我最近一直在试验 Word2Vec,我在浏览论坛时注意到很多其他人也在从他们自己的数据库中创建他们自己的向量。
这让我很好奇向量如何跨数据库查看以及向量是否采用通用方向?
我知道向量是根据语料库中的上下文创建的。因此,从这个意义上说,您可能不会期望单词在不同数据库中具有相同的方向。然而,如果文档的语言是不变的,那么不同数据库的上下文应该至少有些相似(不包括歧义词,如 bank(for money)和(river)bank)。如果它们有些相似,那么当我们查看更常见的单词时,它们的方向可能会收敛,这似乎是合理的?
如评论中所述,"orientation" 在此上下文中不是一个定义明确的概念。传统的词向量 space 每个术语都有一个维度。
为了使词向量兼容,它们需要具有相同的词序。这通常不是不同矢量集合之间的情况,除非您使用完全相同的算法以完全相同的顺序从完全相同的文档构建它们。
您可以将 "orientation" 解释为 "vectors with the same terms in the same order",但三维几何的平行线已经被拉紧了。最好避免这个词。
从一种已知语言的具有合理代表性的输入中给定两个向量集合,最频繁的术语可能具有相似的分布,因此您或许可以从一种表示到另一种表示的映射具有一定的准确性(参见 Zipf's Law). Back in the long tail 稀有术语,您肯定无法识别任何有用的映射。
我最近一直在试验 Word2Vec,我在浏览论坛时注意到很多其他人也在从他们自己的数据库中创建他们自己的向量。
这让我很好奇向量如何跨数据库查看以及向量是否采用通用方向?
我知道向量是根据语料库中的上下文创建的。因此,从这个意义上说,您可能不会期望单词在不同数据库中具有相同的方向。然而,如果文档的语言是不变的,那么不同数据库的上下文应该至少有些相似(不包括歧义词,如 bank(for money)和(river)bank)。如果它们有些相似,那么当我们查看更常见的单词时,它们的方向可能会收敛,这似乎是合理的?
如评论中所述,"orientation" 在此上下文中不是一个定义明确的概念。传统的词向量 space 每个术语都有一个维度。
为了使词向量兼容,它们需要具有相同的词序。这通常不是不同矢量集合之间的情况,除非您使用完全相同的算法以完全相同的顺序从完全相同的文档构建它们。
您可以将 "orientation" 解释为 "vectors with the same terms in the same order",但三维几何的平行线已经被拉紧了。最好避免这个词。
从一种已知语言的具有合理代表性的输入中给定两个向量集合,最频繁的术语可能具有相似的分布,因此您或许可以从一种表示到另一种表示的映射具有一定的准确性(参见 Zipf's Law). Back in the long tail 稀有术语,您肯定无法识别任何有用的映射。