寻找建议的聚类技术

Looking for a suggested Clustering technique

我有一系列(比方说 1000 张)生物样本的图像……活细胞。在这个系列中,每个像素的数据将描述一个时间变量 "wave",如果你愿意的话,给出光强度与时间的度量。对该波执行 FFT 后,我将获得每个像素的频率内容和相位。

我的目标是能够找到测量单个细胞的所有像素,并且想知道某种聚类技术是否能满足我的需求。在研究了 KMeans、DBSCAN 和其他一些工具之后(我对聚类分析几乎一无所知),我不确定如何进行。

这是我的标准:

如有任何建议,我们将不胜感激。我只是在寻求帮助以指明正确的方向。

可能最灵活的是经典的旧层次凝聚聚类 (HAC)。出于某种原因,人们总是忽视这种强大的方法,而更喜欢更有限的 kmeans。

HAC 非常适合参数化。它需要距离或相似性(这里的要求很少——可能应该是对称的,但不需要三角形不等式)。通过连接,您可以很好地控制簇的形状或直径。例如,使用 complete linkage 可以控制簇的最大直径。这可能在这里很有用,也是我的建议。

HAC 的主要缺点是 (1) 可扩展性:在 50.000 个实例时它会很慢并且使用太多内存,当然 (2) 你需要知道你想做什么:你需要选择距离、链接和切割树状图。使用 k-means,您只需选择 k 即可获得(坏)结果。

DBSCAN 是一个很棒的算法,但在您的情况下,它可能会形成具有多个单元格的集群。所以我宁愿尝试 OPTICS,它可能能够发现 DBSCAN 只能看到大斑点的子结构。