使用 K-Means 聚类一维或多维数据?
Clustering one or Multi dimensional data with K-Means?
我正在处理来自 BigData Challenge 的数据集。
https://dandelion.eu/datamine/open-big-data/
数据集:电信 - 短信、电话、互联网 - MI
样本数据集(一天)
Square id Time interval Country code SMS-in activity SMS-out activity Call-in activity Call-out activity Internet traffic activity
1 1.39E+12 39 0.11098917 0.166214369 0.10920186 0.164427059 13.64843792
1 1.39E+12 46 0.026137424
1 1.39E+12 39 0.165136827 0.176399458 0.030875085 0.027300465 13.33085819
1 1.39E+12 0 0.029087775 0.027300465
1 1.39E+12 39 0.186451092 0.136587823 0.05460093 11.32955226
.
.
10000 1.39E+12 39 0.165136827 0.176399458 0.030875085 0.027300465 13.33085819
在这个数据集中,米兰市地理区域被划分为 10,000 个方块 ID,他们为每个方块 ID 提供了用户 activity(SMS,CALL,INTERNET),像这样我有一个月的数据集(30天)持续时间。
有了这个,我试图根据用户 activity 将这些数据聚类到三个集群中,例如最小用户、平均用户和最大用户 activity。
我厌倦了使用 K-Means 聚类算法,但由于我的数据是一维的,K-Means 不适合这个。
我可以使用天数和 square-ids 作为维度和 运行 K-Means 吗??
对方法或聚类算法有什么建议吗??
从不 聚类时使用 ID 列。
此外,k-means 仅在所有列具有相同比例时才有效。 Please see the answers to this post.
如果你想把地理上的接近度融入到聚类中,我建议你慎重定制一个方法。看看专为定制而设计的通用 DBSCAN。永远不要假设聚类 "just works" 因为大多数时候它不起作用,不幸的是。
另外,您需要预先定义您的objective。您想要实现什么目标,您如何衡量成功?仅仅因为您想进行聚类或因为您不知道该做什么而进行聚类不会成功.
至于数据集,它的缺点是没有 objective。获奖作品似乎归结为观察到当时人多的地方能耗更高(令人惊讶)。开放式挑战真的很难做。
我正在处理来自 BigData Challenge 的数据集。
https://dandelion.eu/datamine/open-big-data/ 数据集:电信 - 短信、电话、互联网 - MI
样本数据集(一天)
Square id Time interval Country code SMS-in activity SMS-out activity Call-in activity Call-out activity Internet traffic activity
1 1.39E+12 39 0.11098917 0.166214369 0.10920186 0.164427059 13.64843792
1 1.39E+12 46 0.026137424
1 1.39E+12 39 0.165136827 0.176399458 0.030875085 0.027300465 13.33085819
1 1.39E+12 0 0.029087775 0.027300465
1 1.39E+12 39 0.186451092 0.136587823 0.05460093 11.32955226
.
.
10000 1.39E+12 39 0.165136827 0.176399458 0.030875085 0.027300465 13.33085819
在这个数据集中,米兰市地理区域被划分为 10,000 个方块 ID,他们为每个方块 ID 提供了用户 activity(SMS,CALL,INTERNET),像这样我有一个月的数据集(30天)持续时间。
有了这个,我试图根据用户 activity 将这些数据聚类到三个集群中,例如最小用户、平均用户和最大用户 activity。
我厌倦了使用 K-Means 聚类算法,但由于我的数据是一维的,K-Means 不适合这个。
我可以使用天数和 square-ids 作为维度和 运行 K-Means 吗??
对方法或聚类算法有什么建议吗??
从不 聚类时使用 ID 列。
此外,k-means 仅在所有列具有相同比例时才有效。 Please see the answers to this post.
如果你想把地理上的接近度融入到聚类中,我建议你慎重定制一个方法。看看专为定制而设计的通用 DBSCAN。永远不要假设聚类 "just works" 因为大多数时候它不起作用,不幸的是。
另外,您需要预先定义您的objective。您想要实现什么目标,您如何衡量成功?仅仅因为您想进行聚类或因为您不知道该做什么而进行聚类不会成功.
至于数据集,它的缺点是没有 objective。获奖作品似乎归结为观察到当时人多的地方能耗更高(令人惊讶)。开放式挑战真的很难做。