预测一个特征并使用预测的特征来预测目标

Predicting a feature and using the predicted feature to predict the target

我正在研究一个受监督的 ML 分类用例，我有 5 个特征和一个目标变量。假设这 5 个特征是 A、B、C、D、E、F，目标变量是 G。E 特征不是原始特征，这意味着它是从其他一些特征预测出来的。我尝试使用该功能进行模型构建，分类指标非常好。但是现在我的老板说我们不能使用特征E，因为它不是直接可用的，我们需要先预测它然后用它来预测目标G。

以下是我尝试过的一些方法：

我尝试通过从我的特征列表中删除特征 E 来构建模型，指标下降意味着特征 E 很重要。
老大说特征E是推导或依赖于特征A,B,C,D,F所以我们可以用它来预测特征E然后用特征A,B,C, D、E、F 预测 G.

以下是我的担忧：

如果特征 E 依赖于特征 A、B、C、D 和 F，那么在构建模型时不使用特征 E 应该不会对我的指标产生太大影响。
如果我使用特征 A、B、C、D 和 F 来预测特征 E，并且确实使用特征 A、B、C、D、E、F 来预测 G，我不会使用相关特征进行模型构建，因为 E 是使用 A、B、C、D 和 F 预测的。使用 F 不会向我的特征集添加任何额外信息。

我的理解是，如果通过从我的特征列表中删除特征 E 来构建模型会降低我的指标，那么这意味着特征 E 来自其他地方，即特征 A、B、C、D、F 以外的地方。

我不是 ML 方面的经验丰富的人，这些是我对这个问题的看法。

请问我的思路是否正确？

If feature E is dependent on features A, B, C, D and F then not using feature E while building model should not affect my metrics much.

这实际上取决于您使用的模型，但举个简单的例子，假设您使用的是线性回归模型，并且您尝试预测的值是 y=x²

您无法找到具有简单线性回归量 (A*x+B) 的拟合模型。但是，您可以创建一个新特征 x' = x²，现在您可以拟合 y A*x'+b 。因此，依赖于其他特征组合的特征有时可以帮助您的模型。

If I use features A, B, C, D and F to predict feature E and indeed use features A, B, C, D, E, F to predict G won't I be using correlated feature for model building because E is predicted using A, B, C, D and F. Using F won't add any extra information to my feature set.

这个问题比较棘手，因为这完全取决于你用来预测 E 的模型，以及你用来预测 y 的模型。如果你对两者都使用一个简单的线性回归器，那么是的，E 将是其他变量的线性组合并且无助于预测 y。

但您可以想象使用非线性模型（如 RandomForest）预测 E，这可能有助于您的最终模型。

底线是：尝试的成本不高，只是要小心对两个模型使用相同的 train/test 以避免任何泄漏。

预测一个特征并使用预测的特征来预测目标

Predicting a feature and using the predicted feature to predict the target

python

machine-learning

supervised-learning