评论集合中的前 m 个主题

Top m topics in a collection of comments

我有一个评论集，每条评论讨论一个话题。我想找出这些评论中讨论的前 m 个主题。此外，我正在以在线方式接收这些评论（即我不会一次性获得全部评论，而是必须逐一处理这些评论）。我想到了使用 Word2Vec 进行特征提取，然后应用一些聚类算法，如 k-means（集群将对应于一个主题），然后我可以从前 m 个集群（其中包含最多的点）中得到答案。但问题是我不知道集群的数量，而且在任何时候，不同主题（集群）的数量都不固定，因为新评论可能会讨论新主题（所以，这个问题不能可以通过应用具有不同 k 值的 k-means 来解决）。那么，我应该使用其他一些聚类算法（如 DBSCAN）吗？在这种情况下应该使用什么方法，或者我应该使用完全不同的方法？

为什么不能尝试一些简单的 LDA，从大量主题开始，然后缩小范围？ https://radimrehurek.com/gensim/models/ldamodel.html

在类似的注释中，您可以查看 sense2vec，他们使用 reddit 评论构建主题模型 https://explosion.ai/blog/sense2vec-with-spacy

评论集合中的前 m 个主题

Top m topics in a collection of comments

nlp

cluster-analysis

machine-learning

text-classification