为使用聚类准备数据

Question

数据集：我得到了单个客户每天使用产品的分钟数，我正在尝试对这些数据进行聚类以找到常见的使用模式。

我的问题：如何格式化数据，例如，使用一年的高级用户看起来与只能使用设备一年的不同高级用户一样在我结束数据收集之前一个月？

到目前为止，我已将每个客户变成一个数组，其中每个单元格都是当天使用的分钟数。该数组从用户首次使用产品时开始，到用户使用第一年后结束。对于聚类模型，单元格中的所有条目都必须是双精度值（e.x。使用了 200.0 分钟）。我考虑过将数据收集的最后一天之后的所有 cells/days 设置为 -1.0 或 NULL。这些都是有效的方法吗？如果不是，您有什么建议？

Answer 1

对于您希望两个用户（一个用户在一年内每天大量使用该产品，另一个用户在一个月内大量使用该产品）的问题，创建一个新条目，其值为：

avg_usage per time_bin

time_bin 可以是一个月、一天或其他最适合您需要的时间段。这样，使用产品的用户，假设一年每天使用 200 分钟，将获得：

200 * 30 * 12 / 12 = 6000 minutes per month

而上个月刚加入的另一个用户也将获得，使用完全相同的用户将获得：

200 * 30 * 1 / 1 = 6000 minutes per month.

这样一来，什么时候开始使用产品并不重要，唯一重要的是使用率。

您可能会考虑的一件重要事情，即产品，可能会被遗忘一段时间。例如，一台电脑，我要去度假。那些日子我没有使用我的电脑，没有（也许）我对这个产品的一般使用的影响。所以，根据你的数据、产品和直觉，你可能会考虑像我提到的那样消除差距，而不是在计算中考虑它。

用户使用您的产品的时间长短可能是某种信号，但如果他的确只是很久以前才开始使用，并且一直使用到今天，这可能是您需要考虑的因素，对于这种用途，这种平均装箱技术可能会有所帮助。

为使用聚类准备数据

Prepping Data For Usage Clustering

cluster-analysis

machine-learning

bigdata

data-cleaning

data-science