机器学习中的无监督分类

Unsupervised Classification in Machine Learning

聚类(例如:K-means、EM 算法等)通过使用数据点之间的一些距离度量在数据集中形成聚类,用于无监督分类

我的问题是: 除了聚类之外,我还可以使用什么来执行无监督分类以及如何执行?或者除了无监督分类的聚类之外没有其他选择吗?

编辑:是的,我的意思是 k-means

聚类是一个通用术语,表示数据点将被拆分为 类 而没有任何关于真实选择的信息的情况。所以不管你用的是什么算法,如果是无监督分类就是聚类

当然,根据案例、数据、问题等,有许多不同的方法。如果您可以提供更多关于您的具体任务的上下文,我可能会列举一些方法。

简短的回答是否定的,聚类不是无监督学习下的唯一领域。无监督学习比仅聚类更广泛。聚类只是无监督学习(或类型)的一个子领域。

小更正:KNN不是一种聚类方法,它是一种分类算法。你可能是想说 k 均值。

无监督学习的本质基本上是学习没有真实标签的数据。因此,无监督学习的目标是找到给定数据的表示。无监督学习的应用千差万别,尽管从学术上讲,该领域对研究人员的吸引力确实较低,因为它的复杂性和构建新东西的努力 and/or 进行改进。

Dimension reduction 可以考虑在无监督学习下,因为你想在较低维度上找到良好的数据表示。它们对于可视化高维数据也很有用。 PCA、SNE、tSNE、Isomap 等都是这些应用程序的类型。

Clustering 方法是一种无监督学习类型,也是您希望根据某些 distance/divergence 度量对值进行分组和标记的方法。一些应用程序可能是 K 均值、层次聚类等。

Generative models, generative models model the conditional probability P(X|Y=y). The research in this field boomed since the publication of GAN (see paper)。 GAN 可以在不明确查看数据的情况下学习数据分布。方法多种多样,其中 GAN、VAE、高斯混合、LDA、隐马尔可夫模型。

您可以进一步阅读 here 无监督学习。