在 Top2vec 中规范化主题向量

Normalizing Topic Vectors in Top2vec

我正在尝试了解 Top2Vec works. I have some questions about the code that I could not find an answer for in the paper。该算法所做的总结是:

让我烦恼的是他们规范化了主题向量。然而,UMAP 的输出没有被归一化,并且归一化主题向量可能会将它们移出它们的集群。这与他们在论文中描述的内容不一致,因为主题向量是属于同一主题的所有文档向量的算术平均值。

这引出了两个问题:

鉴于他们通过归一化改变了主题向量,他们将如何计算最近的词以找到每个主题的关键字?

将主题创建为集群后,他们尝试 deduplicate 非常相似的主题。为此,他们使用余弦相似度。这对于规范化的主题向量是有意义的。同时,它是归一化主题向量引入的​​不一致性的扩展。我在这里遗漏了什么吗?

我从源代码中得到了问题的答案。我本来打算删除问题,但无论如何我都会留下答案。

这是我错过的部分,我的问题是错误的。 Topic vectors are the arithmetic mean 个属于同一主题的所有文档向量。主题向量属于单词和文档向量存在的相同语义space。

这就是为什么对它们进行归一化是有意义的,因为所有单词和文档向量都已归一化,并且在较高原始语义中查找重复主题时使用余弦度量 space。