主题提取和文本分类之间的概念区别是什么?

What is the conceptual difference between topic extraction and text categorization?

我很困惑,非常相似的文本挖掘服务有不同的名称,例如主题提取和文本 categorization/classification。它们之间的概念区别是什么?

主题提取示例: https://www.uclassify.com/browse/uclassify/topics?input=Text

分类示例: https://dandelion.eu/semantic-text/text-classification-demo/

主题模型方法(主题提取)是无监督方法。所以,你不需要知道每个文档属于什么类别(classes)[https://en.wikipedia.org/wiki/Topic_model]。 Latent Dirichlet allocation (LDA) 是一种主题建模方法。 LDA 将文档划分为主题并为主题分配名称。 [https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation] 主题模型需要的输出簇数与聚类方法相同。但是他们为每个输出集群分配了一个主题名称。 与主题模型方法相反,文档分类方法(分类)是受监督的。因此,他们需要 class 标签。 [https://en.wikipedia.org/wiki/Document_classification]