评论集合中的前 m 个主题
Top m topics in a collection of comments
我有一个评论集,每条评论讨论一个话题。我想找出这些评论中讨论的前 m 个主题。此外,我正在以在线方式接收这些评论(即我不会一次性获得全部评论,而是必须逐一处理这些评论)。我想到了使用 Word2Vec 进行特征提取,然后应用一些聚类算法,如 k-means(集群将对应于一个主题),然后我可以从前 m 个集群(其中包含最多的点)中得到答案。但问题是我不知道集群的数量,而且在任何时候,不同主题(集群)的数量都不固定,因为新评论可能会讨论新主题(所以,这个问题不能可以通过应用具有不同 k 值的 k-means 来解决)。那么,我应该使用其他一些聚类算法(如 DBSCAN)吗?在这种情况下应该使用什么方法,或者我应该使用完全不同的方法?
为什么不能尝试一些简单的 LDA,从大量主题开始,然后缩小范围? https://radimrehurek.com/gensim/models/ldamodel.html
在类似的注释中,您可以查看 sense2vec,他们使用 reddit 评论构建主题模型 https://explosion.ai/blog/sense2vec-with-spacy
我有一个评论集,每条评论讨论一个话题。我想找出这些评论中讨论的前 m 个主题。此外,我正在以在线方式接收这些评论(即我不会一次性获得全部评论,而是必须逐一处理这些评论)。我想到了使用 Word2Vec 进行特征提取,然后应用一些聚类算法,如 k-means(集群将对应于一个主题),然后我可以从前 m 个集群(其中包含最多的点)中得到答案。但问题是我不知道集群的数量,而且在任何时候,不同主题(集群)的数量都不固定,因为新评论可能会讨论新主题(所以,这个问题不能可以通过应用具有不同 k 值的 k-means 来解决)。那么,我应该使用其他一些聚类算法(如 DBSCAN)吗?在这种情况下应该使用什么方法,或者我应该使用完全不同的方法?
为什么不能尝试一些简单的 LDA,从大量主题开始,然后缩小范围? https://radimrehurek.com/gensim/models/ldamodel.html
在类似的注释中,您可以查看 sense2vec,他们使用 reddit 评论构建主题模型 https://explosion.ai/blog/sense2vec-with-spacy