随机森林回归预测:高估负实际值并低估正值

Random Forest Regression predictions: overestimates negative actual values and underestimates positive values

大家好,我是 ML 的新手,正在努力自学书中的知识,所以提前为我的无知道歉。

基本上,我试图根据随机森林回归中的一组 15 个预测变量预测提前一个时期的股票 return 值(使用 R 中的 tidymodels,感谢您的视频@Julia Silge: -)).

令我困扰的是,回归高估了坏库存,低估了好库存。我只想将整个点云逆时针旋转几度,我的生活会更轻松。是否有随机森林回归方面的专家可以解决这个问题?

提前致谢。

您的担心是对的:该模型基本上 returns 所有股票的平均值(因为预测位于一条平坦的水平线上,带有一些噪音)。正如您所指出的,这意味着该模型存在偏差:它低估了正值 returns 并且低估了负值 returns.

简而言之,该模型预测没有 returns 也没有损失(在下一个时期)。这很无聊,但实际上看起来并没有错。

由于您这样做是为了了解机器学习,请考虑选择一个“更简单”的问题。股票 returns 总体上不是很容易预测。