聚类+回归——正确与否?

Clustering+Regression-the right approach or not?

我有一个任务是预测销售商品的速度(例如,在一个类别中)。例如,客户输入他希望他的物品出售的价格,算法应该显示它将以输入的价格出售 n 天。并且应该有快卖、中卖、长卖3个区间。如图:

问题:我究竟应该如何准备算法?

我的建议:使用聚类技术来理解这三个价格范围,然后为每个聚类解决回归任务以预测天数。这是一个正确的概念吗?

我建议您只定义 10 天和 31 天的阈值。保持简单.

因为这些是用户想要了解的价值观。如果您使用聚类,您最终可能会得到 0.31415 天或类似的非直观值,无论如何您都无法向用户解释。

这里有两个问题,我认为每个问题的答案都在不同的领域:

  1. 给定输入价格,预测售出商品需要多长时间。这是一个定义明确的预测问题,可以使用 ML 算法来解决。例如使用您的整个数据集来训练和测试用于预测的回归模型。
  2. 将预测转化为 class:快速、中等或慢速销售。这个问题是面向产品的——似乎没有任何具体数据可以让你在这个翻译上训练一个 classifier;我同意@anony-mousse 的观点,即使用无监督学习可能不会产生易于使用的结果。

您可以就合理的使用阈值咨询您的用户或产品经理(此处可能需要考虑诸如项目类型、季节等),或者尝试获取一些额外的数据以训练受监督的 class生成器.

例如您可以询问您的用户,post-sell,他们认为销售是快、中还是慢。然后你将有一些数据用于阈值化或class化。