如何使用自组织映射对数据进行聚类?
How to cluster data using self-organising maps?
假设我们用给定的数据集训练自组织映射 (SOM)。将 SOM 的神经元而不是原始数据点聚类是否有意义?看了this paper后,我产生了这个疑问,其中陈述如下:
The most important benefit of this procedure
is that computational load decreases considerably, making
it possible to cluster large data sets and to consider several
different preprocessing strategies in a limited time. Naturally,
the approach is valid only if the clusters found using the SOM
are similar to those of the original data.
在this answer中明确指出SOMs不包括聚类,但是一些聚类过程可以在SOM被训练后进行。我认为这意味着聚类是在 SOM 的神经元上完成的,从某种意义上说,这是原始数据的映射,但我不确定这一点。所以,我想知道的是:
- 对训练神经元权重执行聚类算法的聚类数据作为数据点是否正确?如果不是,那么如何使用 SOM 进行聚类?
- 一般而言,数据集应具备哪些特征才能使这种方法发挥作用?
是的,通常的方法似乎是分层的或 k-means(你需要深入了解它是如何最初完成的——正如你在论文中看到的那样链接,包括两级方法在内的许多变体已在神经元上进行了探索)。如果您将 SOM 视为一种量化和投影技术,那么所有这些方法都可以有效使用。
它更便宜,因为它们只是二维的、欧几里德的,而且点数少得多。所以这与您拥有的来源完全一致。
请注意,SOM 神经元可能是空的,它位于两个分离得非常好的簇之间。
假设我们用给定的数据集训练自组织映射 (SOM)。将 SOM 的神经元而不是原始数据点聚类是否有意义?看了this paper后,我产生了这个疑问,其中陈述如下:
The most important benefit of this procedure is that computational load decreases considerably, making it possible to cluster large data sets and to consider several different preprocessing strategies in a limited time. Naturally, the approach is valid only if the clusters found using the SOM are similar to those of the original data.
在this answer中明确指出SOMs不包括聚类,但是一些聚类过程可以在SOM被训练后进行。我认为这意味着聚类是在 SOM 的神经元上完成的,从某种意义上说,这是原始数据的映射,但我不确定这一点。所以,我想知道的是:
- 对训练神经元权重执行聚类算法的聚类数据作为数据点是否正确?如果不是,那么如何使用 SOM 进行聚类?
- 一般而言,数据集应具备哪些特征才能使这种方法发挥作用?
是的,通常的方法似乎是分层的或 k-means(你需要深入了解它是如何最初完成的——正如你在论文中看到的那样链接,包括两级方法在内的许多变体已在神经元上进行了探索)。如果您将 SOM 视为一种量化和投影技术,那么所有这些方法都可以有效使用。
它更便宜,因为它们只是二维的、欧几里德的,而且点数少得多。所以这与您拥有的来源完全一致。
请注意,SOM 神经元可能是空的,它位于两个分离得非常好的簇之间。