大型多维数据的无监督聚类
Unsupervised Clustering of large multi-dimentional data
大家好,我是机器学习新手。我需要一些关于高维数据无监督聚类的帮助。我有超过 15 个维度的数据,大约有 50 - 8 万行。数据看起来像这样(15 个参与者,每个参与者的行数几乎相等,15 个特征)-
Participant
time
feature 1
feature 2...
1
0.05
val
val
1
0.10
val
val
2
0.05
val
val
2
0.10
val
val
2
0.15
val
val
数据由许多参与者组成,每个参与者都有多行数据,并且他们的时间戳记有他们的特征。我的目标是根据参与者对这些数据进行聚类,并根据这些聚类进行推断。这里的问题是每个参与者都有很多行,我无法用一个点代表每个参与者,因此将它们聚类似乎是一项艰巨的任务。
我需要帮助:
什么是聚类此数据的最佳方法,以便我可以根据参与者进行推断?
我应该使用哪种聚类技术?我尝试过 sklearn 的 Kmeans、meanshift 和其他库,但它们花费的时间太长,导致我的系统崩溃。
抱歉如果有点难理解我会尽力回答你的问题。预先感谢您的帮助。如果这个问题与其他问题非常相似,请告诉我(我找不到它)。
谢谢:)
由于您无法满足必要的计算量,因此您必须在此处做出某种妥协。这里有一些可能会解决您的问题的建议,但它们都是有代价的。
降维,即 PCA 将您的列数减少到 ~2 左右。您将丢失一些信息,但您将能够绘制它并通过 K-means 进行推理。
平均患者数据。不确定这是否足够,这取决于您的数据。这将失去对患者的超时观察,但可能会大大减少行数。
我的建议是进行降维,因为随着时间的推移丢失患者的数据可能会使您的数据变得无用。除了 PCA 之外还有其他东西,例如自动编码器。为了按照您描述的方式进行聚类,我建议您坚持使用 K-means 或软 K-means。
大家好,我是机器学习新手。我需要一些关于高维数据无监督聚类的帮助。我有超过 15 个维度的数据,大约有 50 - 8 万行。数据看起来像这样(15 个参与者,每个参与者的行数几乎相等,15 个特征)-
Participant | time | feature 1 | feature 2... |
---|---|---|---|
1 | 0.05 | val | val |
1 | 0.10 | val | val |
2 | 0.05 | val | val |
2 | 0.10 | val | val |
2 | 0.15 | val | val |
数据由许多参与者组成,每个参与者都有多行数据,并且他们的时间戳记有他们的特征。我的目标是根据参与者对这些数据进行聚类,并根据这些聚类进行推断。这里的问题是每个参与者都有很多行,我无法用一个点代表每个参与者,因此将它们聚类似乎是一项艰巨的任务。
我需要帮助:
什么是聚类此数据的最佳方法,以便我可以根据参与者进行推断?
我应该使用哪种聚类技术?我尝试过 sklearn 的 Kmeans、meanshift 和其他库,但它们花费的时间太长,导致我的系统崩溃。
抱歉如果有点难理解我会尽力回答你的问题。预先感谢您的帮助。如果这个问题与其他问题非常相似,请告诉我(我找不到它)。
谢谢:)
由于您无法满足必要的计算量,因此您必须在此处做出某种妥协。这里有一些可能会解决您的问题的建议,但它们都是有代价的。
降维,即 PCA 将您的列数减少到 ~2 左右。您将丢失一些信息,但您将能够绘制它并通过 K-means 进行推理。
平均患者数据。不确定这是否足够,这取决于您的数据。这将失去对患者的超时观察,但可能会大大减少行数。
我的建议是进行降维,因为随着时间的推移丢失患者的数据可能会使您的数据变得无用。除了 PCA 之外还有其他东西,例如自动编码器。为了按照您描述的方式进行聚类,我建议您坚持使用 K-means 或软 K-means。