使用来自半连续目标的信息创建改进的二元分类器？

Creating improved binary classifier using information from a semi-continuous target?

我正在研究用于预测性维护的监督二元分类问题，其表述为以下问题：“这台设备在接下来的 N 个月内发生故障的概率是多少？”

我有一个在单个时间点获取的连续和分类特征的数据集。然后在一段时间内跟踪该机器的状态，看它是否有任何故障。由此，我的目标要么是一个数值（以月为单位的失败时间）要么是一个空值（它没有失败）。

目前，我将其建模为纯二元分类 - 如果失败 > N 个月或未失败则为 0，如果失败 < N 个月则为 1。然后，我训练了一个具有校准概率输出的模型，我就完成了。但直觉上，我觉得必须有一种方法来包含故障日期的实际数值信息，以帮助提高概率预测。我应该尝试将其重新定义为回归问题吗？如果是这样，我该如何处理空值（它没有失败）？

干杯！

您可以通过实施例如加速故障时间 (AFT) 模型来使用生存回归。这里有几个例子：

Python

Weibull AFT model

使用来自半连续目标的信息创建改进的二元分类器？

Creating improved binary classifier using information from a semi-continuous target?

regression

model

classification

selection