如何使用自组织映射对数据进行聚类?

How to cluster data using self-organising maps?

假设我们用给定的数据集训练自组织映射 (SOM)。将 SOM 的神经元而不是原始数据点聚类是否有意义?看了this paper后,我产生了这个疑问,其中陈述如下:

The most important benefit of this procedure is that computational load decreases considerably, making it possible to cluster large data sets and to consider several different preprocessing strategies in a limited time. Naturally, the approach is valid only if the clusters found using the SOM are similar to those of the original data.

this answer中明确指出SOMs不包括聚类,但是一些聚类过程可以在SOM被训练后进行。我认为这意味着聚类是在 SOM 的神经元上完成的,从某种意义上说,这是原始数据的映射,但我不确定这一点。所以,我想知道的是:

是的,通常的方法似乎是分层的或 k-means(你需要深入了解它是如何最初完成的——正如你在论文中看到的那样链接,包括两级方法在内的许多变体已在神经元上进行了探索)。如果您将 SOM 视为一种量化和投影技术,那么所有这些方法都可以有效使用。

它更便宜,因为它们只是二维的、欧几里德的,而且点数少得多。所以这与您拥有的来源完全一致。

请注意,SOM 神经元可能是空的,它位于两个分离得非常好的簇之间。