了解回归结果
Understand Regression results
我有一组描述不同时间点现象的数值特征。为了评估每个特征的个体性能,我执行了带有留一法验证的线性回归,并计算了相关性和误差来评估结果。
所以对于单个功能,它会是这样的:
- 输入:特征 F = {F_t1, F_t2, ... F_tn}
- 输入:现象 P = {P_t1, P_t2, ... P_tn}
- P 根据 F 的线性回归,加上留一。
- 评估:计算相关性(线性和斯皮尔曼)和误差(平均绝对值和均方根)
对于某些变量,两个相关性都非常好(> 0.9),但是当我查看预测时,我意识到预测都非常接近平均值(要预测的值) ,所以误差很大。
这怎么可能?
有办法解决吗?
对于一些技术精度,我使用带有选项“-S 1”的 weka 线性回归以避免特征选择。
好像是因为我们要回归的问题不是线性的,我们用的是线性的方法。那么就有可能有很好的相关性和很差的错误。这并不意味着回归错误或非常糟糕,但你必须非常小心并进一步调查。
无论如何,最小化误差和最大化相关性的非线性方法是可行的方法。
此外,异常值也会导致这个问题。
我有一组描述不同时间点现象的数值特征。为了评估每个特征的个体性能,我执行了带有留一法验证的线性回归,并计算了相关性和误差来评估结果。
所以对于单个功能,它会是这样的:
- 输入:特征 F = {F_t1, F_t2, ... F_tn}
- 输入:现象 P = {P_t1, P_t2, ... P_tn}
- P 根据 F 的线性回归,加上留一。
- 评估:计算相关性(线性和斯皮尔曼)和误差(平均绝对值和均方根)
对于某些变量,两个相关性都非常好(> 0.9),但是当我查看预测时,我意识到预测都非常接近平均值(要预测的值) ,所以误差很大。
这怎么可能?
有办法解决吗?
对于一些技术精度,我使用带有选项“-S 1”的 weka 线性回归以避免特征选择。
好像是因为我们要回归的问题不是线性的,我们用的是线性的方法。那么就有可能有很好的相关性和很差的错误。这并不意味着回归错误或非常糟糕,但你必须非常小心并进一步调查。
无论如何,最小化误差和最大化相关性的非线性方法是可行的方法。
此外,异常值也会导致这个问题。