如何自动生成一个或两个词来表示一个主题?

How to automatically generate one or two words to represent a topic?

Mallet 生成具有热门关键字的主题。关键字对于一个主题是唯一的。有没有一种方法可以自动select将主题关键词中的某个词或几个词作为主题标签。 例如,从 500 篇文章中生成 20 个主题。每个主题设置包含 20 个单词。 其中一个主题是:

topic id 12, weight 0.05879, (keywords) oil energy gas power water electricity nuclear industry sea climate price prices coal carbon emissions year fuel environmental green years

看来我可以对这个话题有不同的解释。例如,

  1. 燃烧天然气、石油或燃料引起的能源问题
  2. 水力发电保护环境
  3. 油价因气候变化而变化
  4. 碳排放导致环境问题
  5. ...

一个词标签可能是:能源、环境、石油、碳排放、绿色能源...

有没有办法只生成一个或两个词来表示这个主题,而不是主观地任意组合这些词?

似乎最重要的词是由关键字算法中的词频决定的。 Mallet 为每个主题生成唯一的单词。

我的问题:有没有办法自动select一个或两个最有代表性的词作为主题标注?

我是主题建模的新手,你能帮帮我吗?

谢谢

自动标注主题的方法是有的,但我个人觉得不够靠谱,不能骗人。正如您所注意到的,通常有很多方法可以描述主题所标识的语义内容,并且许多主题不会轻易解析为单个关键字或短语。

在实践中,自动提取的主题通常结合了多个相关主题(这里是碳氢化合物行业和气候变化),或者代表更大主题的特定方面(例如,可能有两个主题有很多关于教育和 类,但一个只是本科生,另一个是 k-12)。如果不阅读在该主题中具有大量代表性的文档,通常很难识别该主题的真正含义 "about"。

在很多情况下,有一个非常明显的 "tag"(如本例中的 "oil"),但是如果您向用户暗示一个主题代表一个特定的概念,您几乎肯定会找到不是真正正确含义的情况。