聚类 VS 监督分类,在非常小的数据库的情况下

clustering VS supervised classification, in the case of very small database

我正在尝试 classify/cluster 受试者根据两个 类 中的 4 个特征:健康和生病。

需要知道的两件事:我知道每个科目的labels/classes + 我只有40个科目(总共:训练+测试集!)

这种情况我应该选择什么,聚类还是分类?

聚类vs分类不是方法的选择,而是问题的选择。手头的问题是什么?您已标记数据并希望获得可以标记更多的模型 - 根据定义 classification。至于分类具体使用什么方法,是一个全新的、研究驱动的问题,而不是简单的编程问题。特别是许多分类器会尝试将某种生成模型拟合到数据中(因此即使没有标签也能了解结构),但最后 - 标签就在那里,应该使用。*

聚类基于无监督学习,分类基于监督学习。当您没有目标标签时使用无监督学习,它用于将数据聚类成组。而在标记数据时使用监督学习。 在你的陈述中,你提到你有标签,然后使用分类算法,如逻辑回归、svm 等。此外,如果你有一个小数据集,那么你应该注意过度拟合,以克服这个问题,使用简单的算法。

分类是一种监督学习。在分类中,您知道算法需要根据有限的输出集进行预测。例如,输入数据包含有关使用信用卡的人的信息。然后算法将从输入数据和输出列中学习模式(是否使用信用卡)。一旦算法学习,它将根据看不见的数据预测是否使用信用卡。在此示例中,只有有限数量的输出(在这种情况下为 2 - 是否使用信用卡)。这个问题可以用分类来解决。

聚类属于无监督学习。它主要处理未标记的数据。聚类算法会根据相似的特征分离数据