确定聚类的影响

Determining effects of clustering

在聚类中,噪声、冗余和无关属性对其有何影响?他们最终会帮助还是伤害集群?我知道它无法处理嘈杂的数据但不确定其他两个。

噪声
随着噪声百分比的增加,许多聚类算法(如 k-means、围绕中值进行分区等)的性能会降低。对于 k-means 聚类中的示例,由于异常值(与数据集有很大不同的数据),聚类质心会发生变化。该算法需要很长时间才能收敛,并且可能不会产生良好的聚类结果。

大多数聚类算法更喜欢在聚类之前从数据集中去除噪声(异常值)。
更多详情:Effect of noise on the performance of clustering techniques

冗余数据(没有冗余属性但有冗余数据点)
这也会以负面方式影响聚类,但取决于聚类算法。如果任何算法都考虑了数据点的频率(例如,取聚类点的平均值、中值等),则聚类的平均值、中值可能会有所不同。
通常,您不希望根据任何数据点出现的可能性对数据进行聚类。因此,如果任何数据点是冗余的,建议在聚类之前将其删除。

如果您考虑冗余属性(即相关属性),它可能会或可能不会影响聚类。取决于数据集的域。

不相关的属性
这也以负面方式影响聚类。由于不相关的属性,聚类可能不会收敛。事实上,有时不相关的属性被认为是噪音。同样随着维度的增加,维度的诅咒也随之而来。所以经常建议在聚类之前进行降维

一些细节:
Clustering high dimensional data
Effect of irrelevant attribute on fuzzy clustering