相同用户的kmeans算法

Question

希望你今天过得愉快。我的数据库中有用户，在此数据库中，用户具有与其他用户相似的功能。例如：

user1 has a,b,c,d,g feature
user2 has a,b,c,e feature
user3 has b,c,f feature
user4 has c feature
...

我想写一个算法，将用户分成 4 人一组，组内的人应该是最优化的，具有相似的特征，如何使用 kmeans？或者我需要使用其他算法，有什么想法吗？

Answer 1

k-means 可能不是最适合的，但您可以通过将离散变量（特征 on/off）更改为连续变量来尝试。

每个特征都有自己的维度，值可以是 1,0（特征存在）或 0,0（特征缺失）。在您的情况下，您似乎至少有 7 个特征维度 (a-g)。所以你会运行 k-means 在 7 维 space.

研究更适合您的场景的算法可能是个好主意。例如，层次聚类。在那里你可以应用曼哈顿距离而不是 k-means 使用的欧几里德距离。曼哈顿距离更适合您的 n 维网格特征 space。首先尝试单链接和完全链接。计算层次结构后，您可以简单地在树中提取一个切口，为您提供所需数量的簇。

有关此算法的详细概述，请参阅 https://scikit-learn.org/stable/modules/clustering.html#hierarchical-clustering。易于实施和试用您对 Python.

有点熟悉

kmeans algorithm for same users