kmean 聚类：变量选择

kmean clustering: variable selection

我正在应用 kmean 算法对我的客户群进行聚类。我在概念上挣扎于要包含在模型中的维度（变量）的选择过程。我想知道是否有建立方法来比较具有不同变量的模型。特别是，我正在考虑使用常见的 SSwithin / SSbetween 比率，但我不确定是否可以将其应用于比较具有不同维数的模型...... 有什么建议>？非常感谢。

经典方法是顺序选择算法，例如 "sequential floating forward selection" (SFFS) 或“顺序浮动向后消除 (SFBS)”。这些是启发式方法，您可以根据自己的表现一次消除（或添加）一个特征公制，例如均方误差 (MSE)。此外，如果您愿意，也可以使用遗传算法。

这里有一篇简单的论文总结了这些想法： Feature Selection from Huge Feature Sets

还有一个可能有用的更高级的：Unsupervised Feature Selection for the k-means Clustering Problem

编辑：当我再次考虑时，我最初想到了这个问题 "how do I select the k (a fixed number) best features (where k < d)," 例如，为了计算效率或可视化目的。现在，我认为你问的更像是 "What is the feature subset that performs best overall?" 剪影指数（集群内点的相似性）可能会有用，但我真的不认为你可以通过特征选择真正提高性能，除非你有真实标签。

我不得不承认，我对有监督的方法比无监督的方法有更多的经验。因此，在处理 "curse of dimensionality." 我经常使用降维来压缩数据时，我通常更喜欢正则化而不是特征 selection/dimensionality 缩减。

kmean 聚类：变量选择

kmean clustering: variable selection

cluster-analysis

k-means