确定聚类的影响

Determining effects of clustering

在聚类中，噪声、冗余和无关属性对其有何影响？他们最终会帮助还是伤害集群？我知道它无法处理嘈杂的数据但不确定其他两个。

噪声
随着噪声百分比的增加，许多聚类算法（如 k-means、围绕中值进行分区等）的性能会降低。对于 k-means 聚类中的示例，由于异常值（与数据集有很大不同的数据），聚类质心会发生变化。该算法需要很长时间才能收敛，并且可能不会产生良好的聚类结果。

大多数聚类算法更喜欢在聚类之前从数据集中去除噪声（异常值）。
更多详情：Effect of noise on the performance of clustering techniques

冗余数据（没有冗余属性但有冗余数据点）
这也会以负面方式影响聚类，但取决于聚类算法。如果任何算法都考虑了数据点的频率（例如，取聚类点的平均值、中值等），则聚类的平均值、中值可能会有所不同。
通常，您不希望根据任何数据点出现的可能性对数据进行聚类。因此，如果任何数据点是冗余的，建议在聚类之前将其删除。

如果您考虑冗余属性（即相关属性），它可能会或可能不会影响聚类。取决于数据集的域。

不相关的属性
这也以负面方式影响聚类。由于不相关的属性，聚类可能不会收敛。事实上，有时不相关的属性被认为是噪音。同样随着维度的增加，维度的诅咒也随之而来。所以经常建议在聚类之前进行降维

一些细节：
Clustering high dimensional data
Effect of irrelevant attribute on fuzzy clustering

确定聚类的影响

Determining effects of clustering

cluster-analysis

machine-learning

data-mining