在 Top2vec 中规范化主题向量
Normalizing Topic Vectors in Top2vec
我正在尝试了解 Top2Vec works. I have some questions about the code that I could not find an answer for in the paper。该算法所做的总结是:
- 将单词和向量嵌入到相同的语义space中并对其进行规范化。这通常有 300 多个维度。
- 使用 UMAP 和余弦相似度将它们投影到 5 维 space。
- 使用 HDBSCAN 和投影数据上的欧几里得度量将主题创建为聚类的质心。
让我烦恼的是他们规范化了主题向量。然而,UMAP 的输出没有被归一化,并且归一化主题向量可能会将它们移出它们的集群。这与他们在论文中描述的内容不一致,因为主题向量是属于同一主题的所有文档向量的算术平均值。
这引出了两个问题:
鉴于他们通过归一化改变了主题向量,他们将如何计算最近的词以找到每个主题的关键字?
将主题创建为集群后,他们尝试 deduplicate 非常相似的主题。为此,他们使用余弦相似度。这对于规范化的主题向量是有意义的。同时,它是归一化主题向量引入的不一致性的扩展。我在这里遗漏了什么吗?
我从源代码中得到了问题的答案。我本来打算删除问题,但无论如何我都会留下答案。
这是我错过的部分,我的问题是错误的。 Topic vectors are the arithmetic mean 个属于同一主题的所有文档向量。主题向量属于单词和文档向量存在的相同语义space。
这就是为什么对它们进行归一化是有意义的,因为所有单词和文档向量都已归一化,并且在较高原始语义中查找重复主题时使用余弦度量 space。
我正在尝试了解 Top2Vec works. I have some questions about the code that I could not find an answer for in the paper。该算法所做的总结是:
- 将单词和向量嵌入到相同的语义space中并对其进行规范化。这通常有 300 多个维度。
- 使用 UMAP 和余弦相似度将它们投影到 5 维 space。
- 使用 HDBSCAN 和投影数据上的欧几里得度量将主题创建为聚类的质心。
让我烦恼的是他们规范化了主题向量。然而,UMAP 的输出没有被归一化,并且归一化主题向量可能会将它们移出它们的集群。这与他们在论文中描述的内容不一致,因为主题向量是属于同一主题的所有文档向量的算术平均值。
这引出了两个问题:
鉴于他们通过归一化改变了主题向量,他们将如何计算最近的词以找到每个主题的关键字?
将主题创建为集群后,他们尝试 deduplicate 非常相似的主题。为此,他们使用余弦相似度。这对于规范化的主题向量是有意义的。同时,它是归一化主题向量引入的不一致性的扩展。我在这里遗漏了什么吗?
我从源代码中得到了问题的答案。我本来打算删除问题,但无论如何我都会留下答案。
这是我错过的部分,我的问题是错误的。 Topic vectors are the arithmetic mean 个属于同一主题的所有文档向量。主题向量属于单词和文档向量存在的相同语义space。
这就是为什么对它们进行归一化是有意义的,因为所有单词和文档向量都已归一化,并且在较高原始语义中查找重复主题时使用余弦度量 space。