使用 ARIMA 模型适应哪个阈值来检测异常

Which threshold to adapt to detect anomaly using ARIMA model

我正在尝试检测时间序列数据集中的异常。我正在根据阈值对预测值进行分类。

下面是我所做的详细描述：

我将我的总数据集拆分为训练和测试数据集，然后我在训练数据集上安装了我的 ARIMA 模型。我使用建立的模型来预测测试观察结果，而不是计算实际值和预测值之间的误差：

错误 = actual_testing - predicted_testing

通常，我必须根据计算的误差选择阈值对每个观察进行分类。

如果错误 > 阈值 ==> 它是一个异常

有什么方法可以选择这个阈值吗？

一种方法是计算整个训练集或验证集的误差。然后为误差拟合统计分布，例如高斯分布（正态分布）。这具有标准化分数范围的效果，并允许将分数解释为概率。然后可以设置一个阈值，例如 2-6 个标准偏差，具体取决于您要标记的异常数量。