使用来自半连续目标的信息创建改进的二元分类器?

Creating improved binary classifier using information from a semi-continuous target?

我正在研究用于预测性维护的监督二元分类问题,其表述为以下问题:“这台设备在接下来的 N 个月内发生故障的概率是多少?”

我有一个在单个时间点获取的连续和分类特征的数据集。然后在一段时间内跟踪该机器的状态,看它是否有任何故障。由此,我的目标要么是一个数值(以月为单位的失败时间)要么是一个空值(它没有失败)。

目前,我将其建模为纯二元分类 - 如果失败 > N 个月或未失败则为 0,如果失败 < N 个月则为 1。然后,我训练了一个具有校准概率输出的模型,我就完成了。但直觉上,我觉得必须有一种方法来包含故障日期的实际数值信息,以帮助提高概率预测。我应该尝试将其重新定义为回归问题吗?如果是这样,我该如何处理空值(它没有失败)?

干杯!

您可以通过实施例如加速故障时间 (AFT) 模型来使用生存回归。这里有几个例子: