如何自动生成一个或两个词来表示一个主题?
How to automatically generate one or two words to represent a topic?
Mallet 生成具有热门关键字的主题。关键字对于一个主题是唯一的。有没有一种方法可以自动select将主题关键词中的某个词或几个词作为主题标签。
例如,从 500 篇文章中生成 20 个主题。每个主题设置包含 20 个单词。
其中一个主题是:
topic id 12, weight 0.05879, (keywords) oil energy gas power water
electricity nuclear industry sea climate price prices coal carbon
emissions year fuel environmental green years
看来我可以对这个话题有不同的解释。例如,
- 燃烧天然气、石油或燃料引起的能源问题
- 水力发电保护环境
- 油价因气候变化而变化
- 碳排放导致环境问题
- ...
一个词标签可能是:能源、环境、石油、碳排放、绿色能源...
有没有办法只生成一个或两个词来表示这个主题,而不是主观地任意组合这些词?
似乎最重要的词是由关键字算法中的词频决定的。 Mallet 为每个主题生成唯一的单词。
我的问题:有没有办法自动select一个或两个最有代表性的词作为主题标注?
我是主题建模的新手,你能帮帮我吗?
谢谢
自动标注主题的方法是有的,但我个人觉得不够靠谱,不能骗人。正如您所注意到的,通常有很多方法可以描述主题所标识的语义内容,并且许多主题不会轻易解析为单个关键字或短语。
在实践中,自动提取的主题通常结合了多个相关主题(这里是碳氢化合物行业和气候变化),或者代表更大主题的特定方面(例如,可能有两个主题有很多关于教育和 类,但一个只是本科生,另一个是 k-12)。如果不阅读在该主题中具有大量代表性的文档,通常很难识别该主题的真正含义 "about"。
在很多情况下,有一个非常明显的 "tag"(如本例中的 "oil"),但是如果您向用户暗示一个主题代表一个特定的概念,您几乎肯定会找到不是真正正确含义的情况。
Mallet 生成具有热门关键字的主题。关键字对于一个主题是唯一的。有没有一种方法可以自动select将主题关键词中的某个词或几个词作为主题标签。 例如,从 500 篇文章中生成 20 个主题。每个主题设置包含 20 个单词。 其中一个主题是:
topic id 12, weight 0.05879, (keywords) oil energy gas power water electricity nuclear industry sea climate price prices coal carbon emissions year fuel environmental green years
看来我可以对这个话题有不同的解释。例如,
- 燃烧天然气、石油或燃料引起的能源问题
- 水力发电保护环境
- 油价因气候变化而变化
- 碳排放导致环境问题
- ...
一个词标签可能是:能源、环境、石油、碳排放、绿色能源...
有没有办法只生成一个或两个词来表示这个主题,而不是主观地任意组合这些词?
似乎最重要的词是由关键字算法中的词频决定的。 Mallet 为每个主题生成唯一的单词。
我的问题:有没有办法自动select一个或两个最有代表性的词作为主题标注?
我是主题建模的新手,你能帮帮我吗?
谢谢
自动标注主题的方法是有的,但我个人觉得不够靠谱,不能骗人。正如您所注意到的,通常有很多方法可以描述主题所标识的语义内容,并且许多主题不会轻易解析为单个关键字或短语。
在实践中,自动提取的主题通常结合了多个相关主题(这里是碳氢化合物行业和气候变化),或者代表更大主题的特定方面(例如,可能有两个主题有很多关于教育和 类,但一个只是本科生,另一个是 k-12)。如果不阅读在该主题中具有大量代表性的文档,通常很难识别该主题的真正含义 "about"。
在很多情况下,有一个非常明显的 "tag"(如本例中的 "oil"),但是如果您向用户暗示一个主题代表一个特定的概念,您几乎肯定会找到不是真正正确含义的情况。