将指示文档中存在的主题的数组转换为枚举主题的元组

Question

这个标题可能有点令人困惑，所以让我澄清一下：我目前正在使用 LDA（带有 sklearn 包）来生成文档列表的主要主题。实现后，我可以像这样访问输出

-input: lda_cv_output[0]
-output: 
array([0.00131579, 0.00131579, 0.00131579, 0.81370014, 0.00131579,
       0.00131579, 0.00131579, 0.00131579, 0.00131579, 0.00131579,
       0.16261565, 0.00131579, 0.00131579, 0.00131579, 0.00131579,
       0.00131579, 0.00131579, 0.00131579, 0.00131579, 0.00131579])

为了从所有 20 个生成的主题中查看它们与第一个文档的相关性。

我想得到的是

[(1, 0.00131579),(2, 0.00131579),(3, 0.00131579),(4, 0.81370014),(5, 0.00131579),(6, 0.00131579),(7, 0.00131579),(8, 0.00131579),(9, 0.00131579),(10, 0.00131579),(11, 0.16261565),(12, 0.00131579),(13, 0.00131579),(14, 0.00131579),(15, 0.00131579),(16, 0.00131579),(17, 0.00131579),(18, 0.00131579),(19, 0.00131579),(20, 0.00131579)]

这样我就可以很容易地看到每个主题与文档的相关性。

但是，我不确定该怎么做。任何人都可以帮助我快速简便地完成它吗？

感谢您的宝贵时间！

Answer 1

这是未经测试的，但应该会生成指定格式的列表，并分配给 output_lst 变量。 enumerate() 函数接受一个列表，当你遍历它时 returns 每个元素与其索引配对，从 0 开始。因此， i+1 这样你的列表从 1 开始。

output_lst = [(i+1,x) for i,x in enumerate(lda_cv_output[0])]

将指示文档中存在的主题的数组转换为枚举主题的元组

Turning an array indicating the topics present in a document into a tuple enumerating the topics

python

arrays

tuples

numpy

topic-modeling