使用 ARIMA 模型适应哪个阈值来检测异常
Which threshold to adapt to detect anomaly using ARIMA model
我正在尝试检测时间序列数据集中的异常。我正在根据阈值对预测值进行分类。
下面是我所做的详细描述:
我将我的总数据集拆分为训练和测试数据集,然后我在训练数据集上安装了我的 ARIMA 模型。我使用建立的模型来预测测试观察结果,而不是计算实际值和预测值之间的误差:
错误 = actual_testing - predicted_testing
通常,我必须根据计算的误差选择阈值对每个观察进行分类。
如果错误 > 阈值 ==> 它是一个异常
有什么方法可以选择这个阈值吗?
一种方法是计算整个训练集或验证集的误差。然后为误差拟合统计分布,例如高斯分布(正态分布)。这具有标准化分数范围的效果,并允许将分数解释为概率。然后可以设置一个阈值,例如 2-6 个标准偏差,具体取决于您要标记的异常数量。
我正在尝试检测时间序列数据集中的异常。我正在根据阈值对预测值进行分类。
下面是我所做的详细描述:
我将我的总数据集拆分为训练和测试数据集,然后我在训练数据集上安装了我的 ARIMA 模型。我使用建立的模型来预测测试观察结果,而不是计算实际值和预测值之间的误差:
错误 = actual_testing - predicted_testing
通常,我必须根据计算的误差选择阈值对每个观察进行分类。
如果错误 > 阈值 ==> 它是一个异常
有什么方法可以选择这个阈值吗?
一种方法是计算整个训练集或验证集的误差。然后为误差拟合统计分布,例如高斯分布(正态分布)。这具有标准化分数范围的效果,并允许将分数解释为概率。然后可以设置一个阈值,例如 2-6 个标准偏差,具体取决于您要标记的异常数量。