仅显示来自一个集群的数据

Question

我有一个 pandas 数据框。

input_data = {'col1': [1, 2, 3], 'col2': [3, 4, 5]}
d = pd.DataFrame(data=input_data)

anotherdata= magic(d)
df = pd.DataFrame(data=anotherdata)

我使用 DBSCAN 聚类 df。结果我有 cluster_labels。在这种情况下，标签的值可以从 -1（离群值）到 2。

我希望有机会单独显示来自特定 class 的数据，并通过索引访问初始数据帧 d。

例如，我在 input_data 中有一个索引为 1 的元素。该元素被分配到簇 0，并且簇 0 中没有其他元素。

如何通过索引在 input_data 中找到这个元素？

Answer 1

您可能想使用

d[cluster_labels == 0]

除非你的 magic 函数更改了索引。

Show data only from one cluster