使用 ARIMA 模型适应哪个阈值来检测异常

Which threshold to adapt to detect anomaly using ARIMA model

我正在尝试检测时间序列数据集中的异常。我正在根据阈值对预测值进行分类。

下面是我所做的详细描述:

我将我的总数据集拆分为训练和测试数据集,然后我在训练数据集上安装了我的 ARIMA 模型。我使用建立的模型来预测测试观察结果,而不是计算实际值和预测值之间的误差:

错误 = actual_testing - predicted_testing

通常,我必须根据计算的误差选择阈值对每个观察进行分类。

如果错误 > 阈值 ==> 它是一个异常

有什么方法可以选择这个阈值吗?

一种方法是计算整个训练集或验证集的误差。然后为误差拟合统计分布,例如高斯分布(正态分布)。这具有标准化分数范围的效果,并允许将分数解释为概率。然后可以设置一个阈值,例如 2-6 个标准偏差,具体取决于您要标记的异常数量。