聚类+回归——正确与否？

Clustering+Regression-the right approach or not?

我有一个任务是预测销售商品的速度（例如，在一个类别中）。例如，客户输入他希望他的物品出售的价格，算法应该显示它将以输入的价格出售 n 天。并且应该有快卖、中卖、长卖3个区间。如图：

问题：我究竟应该如何准备算法？

我的建议：使用聚类技术来理解这三个价格范围，然后为每个聚类解决回归任务以预测天数。这是一个正确的概念吗？

我建议您只定义 10 天和 31 天的阈值。保持简单.

因为这些是用户想要了解的价值观。如果您使用聚类，您最终可能会得到 0.31415 天或类似的非直观值，无论如何您都无法向用户解释。

这里有两个问题，我认为每个问题的答案都在不同的领域：

给定输入价格，预测售出商品需要多长时间。这是一个定义明确的预测问题，可以使用 ML 算法来解决。例如使用您的整个数据集来训练和测试用于预测的回归模型。
将预测转化为 class：快速、中等或慢速销售。这个问题是面向产品的——似乎没有任何具体数据可以让你在这个翻译上训练一个 classifier；我同意@anony-mousse 的观点，即使用无监督学习可能不会产生易于使用的结果。

您可以就合理的使用阈值咨询您的用户或产品经理（此处可能需要考虑诸如项目类型、季节等），或者尝试获取一些额外的数据以训练受监督的 class生成器.

例如您可以询问您的用户，post-sell，他们认为销售是快、中还是慢。然后你将有一些数据用于阈值化或class化。