使用主题建模或其他 NLP 方法,是否可以定义进入 topics/categories 的词以更好地定义主题模型?

Using Topic Modelling or another NLP approach, is it possible to define words that go into topics/categories for better defined topic model?

我在使用主题建模并考虑 LDA 和 LSA 方法时遇到问题,但是我发现某些主题的定义并不像我喜欢的那样准确。是否可以将单词定义为主题以帮助机器更好、更轻松地学习?如果没有,我可以使用哪些技术来解决这个问题?

如前所述,我已尝试使用 LDA 和 LSA 技术进行主题建模,发现 LDA 最准确,连贯性得分为 0.46,并重新定义了主题名称。但是topic中的词并不能体现topic的名字,这就需要模型的调优了。

我研究过其他 NLP 解决方案,例如关键字提取和命名实体关系 (NER),但认为它们不适合我的问题。

如果可能的话,我希望有 2 个级别的分类,其中级别 1 是概述,级别 2 更详细。下面的示例是一个粗略概括的客户反馈示例:

1 级

2 级

理想情况下,这是我希望主题建模输出生成的格式,但不确定这是否可行?

实际上,处理文本的权重是可行的。示例:

'来自公司的出色培训' - 将被归类为培训(1 级)和决议良好(2 级)。此处选取的词非常棒且训练有素,因为它们在分类方面胜过其他词。

如果需要,很乐意提供更多信息。

如您所知,主题建模通常是一种无监督技术,所以我很难想象您可以仅使用这种方法解决您的复杂问题(2 级分类)。也许主题建模可能是第一步,它可以帮助您进行后续的监督方法。

无论如何,如果您想尝试提供一些词以指导主题建模任务,至少有两个库可供查看:

  • GuidedLDA(有点旧,但可能与您的方法一致)
  • BERTopic(主题建模方面的新鲜空气,还实现了 semi-supervised 技术)

请分享您对此任务的更新。

似乎不​​可能获得多个级别来回答我的问题,但是解决此问题的方法是通过 运行 主题建模方法两次以获得 2 个不同的级别。但是,这需要对主题输出的定义以及您尝试在每个主题中定义的内容进行更多监督。

我在广泛研究后发现有用的技术方法是 CorEx -https://github.com/gregversteeg/corex_topic

它允许您自己定义主题的数量,更重要的是,您可以在每个主题中定义您想要的单词。我发现这回答了我对更受监督的方法的疑问。