将指示文档中存在的主题的数组转换为枚举主题的元组
Turning an array indicating the topics present in a document into a tuple enumerating the topics
这个标题可能有点令人困惑,所以让我澄清一下:我目前正在使用 LDA(带有 sklearn 包)来生成文档列表的主要主题。实现后,我可以像这样访问输出
-input: lda_cv_output[0]
-output:
array([0.00131579, 0.00131579, 0.00131579, 0.81370014, 0.00131579,
0.00131579, 0.00131579, 0.00131579, 0.00131579, 0.00131579,
0.16261565, 0.00131579, 0.00131579, 0.00131579, 0.00131579,
0.00131579, 0.00131579, 0.00131579, 0.00131579, 0.00131579])
为了从所有 20 个生成的主题中查看它们与第一个文档的相关性。
我想得到的是
[(1, 0.00131579),(2, 0.00131579),(3, 0.00131579),(4, 0.81370014),(5, 0.00131579),(6, 0.00131579),(7, 0.00131579),(8, 0.00131579),(9, 0.00131579),(10, 0.00131579),(11, 0.16261565),(12, 0.00131579),(13, 0.00131579),(14, 0.00131579),(15, 0.00131579),(16, 0.00131579),(17, 0.00131579),(18, 0.00131579),(19, 0.00131579),(20, 0.00131579)]
这样我就可以很容易地看到每个主题与文档的相关性。
但是,我不确定该怎么做。任何人都可以帮助我快速简便地完成它吗?
感谢您的宝贵时间!
这是未经测试的,但应该会生成指定格式的列表,并分配给 output_lst 变量。 enumerate() 函数接受一个列表,当你遍历它时 returns 每个元素与其索引配对,从 0 开始。因此, i+1 这样你的列表从 1 开始。
output_lst = [(i+1,x) for i,x in enumerate(lda_cv_output[0])]
这个标题可能有点令人困惑,所以让我澄清一下:我目前正在使用 LDA(带有 sklearn 包)来生成文档列表的主要主题。实现后,我可以像这样访问输出
-input: lda_cv_output[0]
-output:
array([0.00131579, 0.00131579, 0.00131579, 0.81370014, 0.00131579,
0.00131579, 0.00131579, 0.00131579, 0.00131579, 0.00131579,
0.16261565, 0.00131579, 0.00131579, 0.00131579, 0.00131579,
0.00131579, 0.00131579, 0.00131579, 0.00131579, 0.00131579])
为了从所有 20 个生成的主题中查看它们与第一个文档的相关性。
我想得到的是
[(1, 0.00131579),(2, 0.00131579),(3, 0.00131579),(4, 0.81370014),(5, 0.00131579),(6, 0.00131579),(7, 0.00131579),(8, 0.00131579),(9, 0.00131579),(10, 0.00131579),(11, 0.16261565),(12, 0.00131579),(13, 0.00131579),(14, 0.00131579),(15, 0.00131579),(16, 0.00131579),(17, 0.00131579),(18, 0.00131579),(19, 0.00131579),(20, 0.00131579)]
这样我就可以很容易地看到每个主题与文档的相关性。
但是,我不确定该怎么做。任何人都可以帮助我快速简便地完成它吗?
感谢您的宝贵时间!
这是未经测试的,但应该会生成指定格式的列表,并分配给 output_lst 变量。 enumerate() 函数接受一个列表,当你遍历它时 returns 每个元素与其索引配对,从 0 开始。因此, i+1 这样你的列表从 1 开始。
output_lst = [(i+1,x) for i,x in enumerate(lda_cv_output[0])]