聚类 VS 监督分类，在非常小的数据库的情况下

clustering VS supervised classification, in the case of very small database

我正在尝试 classify/cluster 受试者根据两个类中的 4 个特征：健康和生病。

需要知道的两件事：我知道每个科目的labels/classes + 我只有40个科目（总共：训练+测试集！）

这种情况我应该选择什么，聚类还是分类？

聚类vs分类不是方法的选择，而是问题的选择。手头的问题是什么？您已标记数据并希望获得可以标记更多的模型 - 根据定义 classification。至于分类具体使用什么方法，是一个全新的、研究驱动的问题，而不是简单的编程问题。特别是许多分类器会尝试将某种生成模型拟合到数据中（因此即使没有标签也能了解结构），但最后 - 标签就在那里，应该使用。*

聚类基于无监督学习，分类基于监督学习。当您没有目标标签时使用无监督学习，它用于将数据聚类成组。而在标记数据时使用监督学习。在你的陈述中，你提到你有标签，然后使用分类算法，如逻辑回归、svm 等。此外，如果你有一个小数据集，那么你应该注意过度拟合，以克服这个问题，使用简单的算法。

分类是一种监督学习。在分类中，您知道算法需要根据有限的输出集进行预测。例如，输入数据包含有关使用信用卡的人的信息。然后算法将从输入数据和输出列中学习模式（是否使用信用卡）。一旦算法学习，它将根据看不见的数据预测是否使用信用卡。在此示例中，只有有限数量的输出（在这种情况下为 2 - 是否使用信用卡）。这个问题可以用分类来解决。

聚类属于无监督学习。它主要处理未标记的数据。聚类算法会根据相似的特征分离数据

聚类 VS 监督分类，在非常小的数据库的情况下

clustering VS supervised classification, in the case of very small database

classification

machine-learning

unsupervised-learning

supervised-learning