scikit 中最接近的核心样本 DBSCAN

Closest core sample DBSCAN in scikit

我想为每个数据点找到最接近的核心样本。这样我就可以只用核心示例来表示我的数据(减少数据集)

Scikit 似乎只提供了所有核心示例的数组。将我的数据点与该数组进行比较的蛮力方法是加权。 所以我想得到一个簇的核心样本,得到一个数据点的簇号,然后得到最接近的核心样本。

我不认为 DBSCAN 应该以这种方式使用(数据减少)。

但特别是,DBSCAN 计算最近的 核心点。所以它没有你要找的信息!

你必须自己做。

  1. 把所有的核心点放到一个kdtree/balltree
  2. 使用索引找到最近的邻居

Scikit-learn 已经提供了你需要的一切,应该只有几行。