如何使用自组织映射对数据进行聚类？

How to cluster data using self-organising maps?

假设我们用给定的数据集训练自组织映射 (SOM)。将 SOM 的神经元而不是原始数据点聚类是否有意义？看了this paper后，我产生了这个疑问，其中陈述如下：

The most important benefit of this procedure is that computational load decreases considerably, making it possible to cluster large data sets and to consider several different preprocessing strategies in a limited time. Naturally, the approach is valid only if the clusters found using the SOM are similar to those of the original data.

在this answer中明确指出SOMs不包括聚类，但是一些聚类过程可以在SOM被训练后进行。我认为这意味着聚类是在 SOM 的神经元上完成的，从某种意义上说，这是原始数据的映射，但我不确定这一点。所以，我想知道的是：

对训练神经元权重执行聚类算法的聚类数据作为数据点是否正确？如果不是，那么如何使用 SOM 进行聚类？
一般而言，数据集应具备哪些特征才能使这种方法发挥作用？

是的，通常的方法似乎是分层的或 k-means（你需要深入了解它是如何最初完成的——正如你在论文中看到的那样链接，包括两级方法在内的许多变体已在神经元上进行了探索）。如果您将 SOM 视为一种量化和投影技术，那么所有这些方法都可以有效使用。

它更便宜，因为它们只是二维的、欧几里德的，而且点数少得多。所以这与您拥有的来源完全一致。

请注意，SOM 神经元可能是空的，它位于两个分离得非常好的簇之间。