从 Gensim 模型计算余弦相似度

Question

我正在尝试根据 Gensim LDA 主题模型计算主题间余弦相似度得分，但这证明比我最初预期的要复杂。

Gensim有计算主题之间距离的方法model.diff(model)，可惜余弦距离没有实现；它有 jaccard 距离，但它有点过于依赖向量长度（即，当比较每个主题前 100 个最重要的词时，距离低于比较前 500 个，并且当比较全长向量时距离为 0，如每个主题都包含所有术语，但概率不同）。

我的问题是模型的输出看起来像这样（只显示 4 个最前面的词）：

(30, '0.008*"tax" + 0.004*"cut" + 0.004*"bill" + 0.004*"spending"')
(18, '0.009*"candidate" + 0.009*"voter" + 0.009*"vote" + 0.009*"election"')
(42, '0.047*"shuttle" + 0.034*"astronaut" + 0.026*"launch" + 0.025*"orbit"')
(22, '0.023*"boat" + 0.020*"ship" + 0.015*"migrant" + 0.013*"vessel"')

因此，为了计算余弦 sim/distance，我必须解析元组的第二个元素（即 '0.008*"tax" +...' 部分，它表示项概率。

我想知道是否有更简单的方法可以从模型中获取余弦相似度？或者解析 term/probabilities 的每个单独的字符串真的是唯一的方法吗？

感谢您的帮助。

Answer 1

get_topics() 方法为您提供一个完整（稀疏）数组，其中每一行是一个主题，每一列是一个词汇。因此，您可以大致计算出主题到主题的余弦相似度：

from sklearn.metrics.pairwise import cosine_similarity

topics = lda_model.get_topics()
sim_18_to_30 = cosine_similarity(topics[18], topics[30])   # topic 18 to topic 30
all_sims = cosine_similarity(topics)  # all pairwise similarities

（我还没有在真实模型上检查此代码；确切要求 shapes/etc 可能已关闭。）

从 Gensim 模型计算余弦相似度

Calculating cosine similarity from a Gensim model

python

cosine-similarity

gensim

topic-modeling