使用 HDBSCAN 检索集群成员
Retrieving members of a cluster with HDBSCAN
所以我有一些字符串数据,我对其进行了一些操作,然后使用 HDBSCAN 创建了一个集群:
textData = train['eudexHash'].apply(lambda x: str(x))
clusterer = hdbscan.HDBSCAN(min_cluster_size=5,
gen_min_span_tree=True,
prediction_data=True).fit(textData.values.reshape(-1,1))
现在,当我使用 approximate_predict 调用集群进行预测时,我得到了这些结果:
>>>> hdbscan.approximate_predict(clusterer, testCase)
(array([113]), array([1.]))
太棒了,看起来它在预测新的案例,所以它认为新的字符串值对应于标签 [113]。现在,我如何找到 label/bucket/cluster 中的其他成员?
干杯!
如果您想找出您的哪些训练数据是标签 113 的一部分,那么您可以这样做
textdata_with_label_113 = textData[clusterer.labels_ == 113]
所以我有一些字符串数据,我对其进行了一些操作,然后使用 HDBSCAN 创建了一个集群:
textData = train['eudexHash'].apply(lambda x: str(x))
clusterer = hdbscan.HDBSCAN(min_cluster_size=5,
gen_min_span_tree=True,
prediction_data=True).fit(textData.values.reshape(-1,1))
现在,当我使用 approximate_predict 调用集群进行预测时,我得到了这些结果:
>>>> hdbscan.approximate_predict(clusterer, testCase)
(array([113]), array([1.]))
太棒了,看起来它在预测新的案例,所以它认为新的字符串值对应于标签 [113]。现在,我如何找到 label/bucket/cluster 中的其他成员?
干杯!
如果您想找出您的哪些训练数据是标签 113 的一部分,那么您可以这样做
textdata_with_label_113 = textData[clusterer.labels_ == 113]