为什么同组簇数据点在Kmeans聚类中会落得很远或者很散?

Why is the same group of cluster's datapoints falling far away or scattered in Kmeans clustering?

我有一个疑问,在我的会议上也被问了很多次,但我成功地没有回答。我希望你能帮助我了解这个问题的洞察力。

我在我的项目中使用了 kmeans 聚类来为各个问题领域聚类大量文档。我还使用 matplotlib 绘制数据点的坐标。更常见的是,属于同一集群的数据点分散或远离属于同一集群组的其他文档或数据点。人们通常问我的问题是,如果文档或数据点来自同一个 cluster/group,那么它们需要彼此靠近,为什么相同 [=28] 的文档不会发生这种情况=].

我怎么说服他们,有时候我不知道该说什么。

加上同样的问题,我对集群的形成没有控制,但作为我所在领域的领域专家,我非常清楚文档所属的问题领域。那么我如何 configure/cluster 使用 Kmeans 或任何其他聚类机器或通过使用超参数准确地将这数千个文档准确地放入那些问题区域。请帮助我。

我参考了http://brandonrose.org/clustering

父亲,纽约,兄弟是紫色的星团。如果它属于同一个集群,那么它们都需要位于彼此靠近的一侧绘图屏幕。怎么散落在剧情画面的各处。这就是我的情况。

您提供的数据信息很少,因此这个答案有点推测性。但我很确定你的数据点有两个以上的组成部分,并且你在至少 three-dimensional space 中进行 k-means 聚类。然后你使用某种投影以二维方式显示它们。因为投影的关系,原本相距很远的点看起来靠得很近。二维图对原版中的邻里关系几乎没有说明,higher-dimensional space。