仅包含分类变量的大型数据集的聚类分析

Cluster analysis of large dataset containing only categorical variables

我的任务是根据客户一起购买的产品对他们进行聚类。我的数据包含与每个客户相关的 500,000 行和 8,000 个变量（产品 ID）。每个变量都是一个单一的热编码向量，显示客户是否购买了该产品。

我曾尝试使用 MCA（多重对应算法）降低数据维度，然后使用 k-means 和 dbscan 进行聚类分析，但我的结果并不令人满意。

有哪些适用于高维大型数据集聚类分析的算法及其 python 实现？

您可能使用的不是聚类，而是频繁模式挖掘。

One-hot 编码变量往往弊大于利。使用合适的聚类算法（例如，分层、DBSCAN，但不是）对此类数据使用 well-chosen 距离（在某些数据集上可以像 Hamming 或 Jaccard 一样简单） k-means)。或者，尝试 k-modes。但最有可能的是，频繁项集是对 nsuvh 数据更有意义的分析。

仅包含分类变量的大型数据集的聚类分析

Cluster analysis of large dataset containing only categorical variables

python

cluster-analysis

large-data