仅包含分类变量的大型数据集的聚类分析
Cluster analysis of large dataset containing only categorical variables
我的任务是根据客户一起购买的产品对他们进行聚类。我的数据包含与每个客户相关的 500,000 行和 8,000 个变量(产品 ID)。每个变量都是一个单一的热编码向量,显示客户是否购买了该产品。
我曾尝试使用 MCA(多重对应算法)降低数据维度,然后使用 k-means 和 dbscan 进行聚类分析,但我的结果并不令人满意。
有哪些适用于高维大型数据集聚类分析的算法及其 python 实现?
您可能使用的不是聚类,而是频繁模式挖掘。
One-hot 编码变量往往弊大于利。使用合适的聚类算法(例如,分层、DBSCAN,但 不是 )对此类数据使用 well-chosen 距离(在某些数据集上可以像 Hamming 或 Jaccard 一样简单) k-means)。或者,尝试 k-modes。但最有可能的是,频繁项集是对 nsuvh 数据更有意义的分析。
我的任务是根据客户一起购买的产品对他们进行聚类。我的数据包含与每个客户相关的 500,000 行和 8,000 个变量(产品 ID)。每个变量都是一个单一的热编码向量,显示客户是否购买了该产品。
我曾尝试使用 MCA(多重对应算法)降低数据维度,然后使用 k-means 和 dbscan 进行聚类分析,但我的结果并不令人满意。
有哪些适用于高维大型数据集聚类分析的算法及其 python 实现?
您可能使用的不是聚类,而是频繁模式挖掘。
One-hot 编码变量往往弊大于利。使用合适的聚类算法(例如,分层、DBSCAN,但 不是 )对此类数据使用 well-chosen 距离(在某些数据集上可以像 Hamming 或 Jaccard 一样简单) k-means)。或者,尝试 k-modes。但最有可能的是,频繁项集是对 nsuvh 数据更有意义的分析。