是否有理由不规范化 Doc2Vec 的文档输出向量以进行聚类?

Is there a reason to not normalize the document output vectors of Doc2Vec for clustering?

我知道在 Word2Vec 中,词向量的长度可以编码词频等属性。在那种情况下,我们可以看到两个词向量,比如同义词,具有相似的含义,但鉴于它们在我们的语料库中的用法,长度不同。

但是,如果我们对词向量进行归一化,我们会保留它们的 "directions of meaning" 并且我们可以根据以下内容对它们进行聚类:含义。

按照这个思路,同样适用于 Doc2Vec 中的文档向量。

但我的问题是,如果我们想对它们进行聚类,是否有理由 规范化文档向量?在 Word2Vec 中我们可以说我们想要保持单词的频率 属性,文档有类似的东西吗?

我不熟悉任何暗示单位规范化或非规范化文档向量更适合聚类的推理或研究先例。

所以,我会尝试两种方法,看看哪种方法更适合您的目的。

其他想法:

Word2Vec中,我的总体印象是,较大的词向量与在训练数据中具有更明确含义的词相关联。 (也就是说,它们可靠地倾向于暗示相同的较小的相邻词集。)同时,具有多重含义(多义词)和在许多其他不同词中使用的词往往具有较低的向量。

不过,比较此类向量的常用方法余弦相似度忽略了大小。这可能是因为大多数比较只需要一个词的最佳含义,而不需要 "unity of meaning" 的任何更微妙的指标。

类似的效果 可能 出现在 Doc2Vec 向量中:较低级别的文档向量可能暗示文档具有更广泛的 word-usage/subject-matter ,而更高级别的文档向量建议更集中的文档。 (我同样有预感 更长的 文档可能倾向于具有 较低的幅度 文档向量,因为它们使用更多样化的词,而具有 words/topics 一组窄集的小文档可能具有 更高级别 文档向量。但我没有特别 observed/tested 这种预感,以及这里的任何影响可能会受到其他训练选择的严重影响,例如训练迭代次数。)

因此,可能 非规范化向量对于某些聚类目标很有趣,例如将重点文档与更一般的文档分开。因此,再一次,经过更长的分析:我建议尝试两种方式,看看一种或另一种似乎更适合您的特定需求。