如何从包含 Y 轴浮动整数和 X 轴日期的数据框中删除异常值?
How do I remove outliers from a dataframe that contains floating integers in Y-axis and dates in X-axis?
我正在研究库存预测模型,我需要特定数据来训练和测试模型。目前,我正在尝试使用一年的数据来建立一个基本的线性回归模型来预测下一年。
我遇到的问题是从包含 2 种不同类型异常值(“数量”和“日期”)的数据框中删除异常值,而我只是尝试使用“数量”删除异常值。
您可以通过将异常值与均值或中值(我建议使用中值)进行比较来去除异常值。如果大于阈值(例如0.98,这取决于您的数据,只有您可以 select 它),则将每个值与中值之间的距离除以最大值与中值之间的距离。删除该数据。
例如,如果您将阈值设置为 1,则最远的数据将被删除。
我正在研究库存预测模型,我需要特定数据来训练和测试模型。目前,我正在尝试使用一年的数据来建立一个基本的线性回归模型来预测下一年。
我遇到的问题是从包含 2 种不同类型异常值(“数量”和“日期”)的数据框中删除异常值,而我只是尝试使用“数量”删除异常值。
您可以通过将异常值与均值或中值(我建议使用中值)进行比较来去除异常值。如果大于阈值(例如0.98,这取决于您的数据,只有您可以 select 它),则将每个值与中值之间的距离除以最大值与中值之间的距离。删除该数据。 例如,如果您将阈值设置为 1,则最远的数据将被删除。