是否可以对单个文档使用主题建模

Is it possible to use topic modeling for a single document

对单个文档使用主题建模是否合理,或者更准确地说,对单个文档使用 LDA-gibbs 方法在数学上是否可行 document.If 那么 k 和种子的值应该是多少。 另外,k 和种子对于单个文档和大型文档集的作用是什么。

K 和 SEED 是函数 LDA 的变量(在 r studio 中)。 如果我在这个问题的任何地方错了,也请告诉我。

关于我的项目,我试图找出可用于表示单个文档内容的主要主题。

我已经尝试过使用 k=4,7,10.Part 我的问题也是 k 的值应该更好。

这真的取决于文档。文档可以是 700 页的书或一句话。你的 k 也将依赖于文件我想你的意思是主题的数量?如果你的文档是整个维基百科语料库,1500 个主题可能是合适的,如果你的文档是关于电影的评论列表,那么 20 个主题可能是合适的。可以使用肘部方法来优化该数字,请查看 17.

种子可以是非常随机的,它只是一个离开者,所以你的结果可以被复制——如果你把它留空它就会运行。我会说尝试一下并检查你的连贯性,观察你的主题,如果它看起来正确,那么确保你可以在一个文档上训练 LDA。单个文档应该处理得非常快。

这是 python 中使用种子参数的示例。我的数据集是 1,048,575 行,请注意种子要高得多:

ldamallet = gensim.models.wrappers.LdaMallet(mallet_path, corpus=bow_corpus,
   num_topics=20, alpha =.1, id2word=dictionary, iterations = 1000, 
   random_seed = 569356958)