预测一个特征并使用预测的特征来预测目标
Predicting a feature and using the predicted feature to predict the target
我正在研究一个受监督的 ML 分类用例,我有 5 个特征和一个目标变量。假设这 5 个特征是 A、B、C、D、E、F,目标变量是 G。E 特征不是原始特征,这意味着它是从其他一些特征预测出来的。我尝试使用该功能进行模型构建,分类指标非常好。但是现在我的老板说我们不能使用特征E,因为它不是直接可用的,我们需要先预测它然后用它来预测目标G。
以下是我尝试过的一些方法:
我尝试通过从我的特征列表中删除特征 E 来构建模型,指标下降意味着特征 E 很重要。
老大说特征E是推导或依赖于特征A,B,C,D,F所以我们可以用它来预测特征E然后用特征A,B,C, D、E、F 预测 G.
以下是我的担忧:
如果特征 E 依赖于特征 A、B、C、D 和 F,那么在构建模型时不使用特征 E 应该不会对我的指标产生太大影响。
如果我使用特征 A、B、C、D 和 F 来预测特征 E,并且确实使用特征 A、B、C、D、E、F 来预测 G,我不会使用相关特征进行模型构建,因为 E 是使用 A、B、C、D 和 F 预测的。使用 F 不会向我的特征集添加任何额外信息。
我的理解是,如果通过从我的特征列表中删除特征 E 来构建模型会降低我的指标,那么这意味着特征 E 来自其他地方,即特征 A、B、C、D、F 以外的地方。
我不是 ML 方面的经验丰富的人,这些是我对这个问题的看法。
请问我的思路是否正确?
- If feature E is dependent on features A, B, C, D and F then not using feature E while building model should not affect my metrics
much.
这实际上取决于您使用的模型,但举个简单的例子,假设您使用的是线性回归模型,并且您尝试预测的值是 y=x²
您无法找到具有简单线性回归量 (A*x+B) 的拟合模型。但是,您可以创建一个新特征 x' = x²,现在您可以拟合 y A*x'+b 。因此,依赖于其他特征组合的特征有时可以帮助您的模型。
- If I use features A, B, C, D and F to predict feature E and indeed use features A, B, C, D, E, F to predict G won't I be using correlated
feature for model building because E is predicted using A, B, C, D and
F. Using F won't add any extra information to my feature set.
这个问题比较棘手,因为这完全取决于你用来预测 E 的模型,以及你用来预测 y 的模型。
如果你对两者都使用一个简单的线性回归器,那么是的,E 将是其他变量的线性组合并且无助于预测 y。
但您可以想象使用非线性模型(如 RandomForest)预测 E,这可能有助于您的最终模型。
底线是:尝试的成本不高,只是要小心对两个模型使用相同的 train/test 以避免任何泄漏。
我正在研究一个受监督的 ML 分类用例,我有 5 个特征和一个目标变量。假设这 5 个特征是 A、B、C、D、E、F,目标变量是 G。E 特征不是原始特征,这意味着它是从其他一些特征预测出来的。我尝试使用该功能进行模型构建,分类指标非常好。但是现在我的老板说我们不能使用特征E,因为它不是直接可用的,我们需要先预测它然后用它来预测目标G。
以下是我尝试过的一些方法:
我尝试通过从我的特征列表中删除特征 E 来构建模型,指标下降意味着特征 E 很重要。
老大说特征E是推导或依赖于特征A,B,C,D,F所以我们可以用它来预测特征E然后用特征A,B,C, D、E、F 预测 G.
以下是我的担忧:
如果特征 E 依赖于特征 A、B、C、D 和 F,那么在构建模型时不使用特征 E 应该不会对我的指标产生太大影响。
如果我使用特征 A、B、C、D 和 F 来预测特征 E,并且确实使用特征 A、B、C、D、E、F 来预测 G,我不会使用相关特征进行模型构建,因为 E 是使用 A、B、C、D 和 F 预测的。使用 F 不会向我的特征集添加任何额外信息。
我的理解是,如果通过从我的特征列表中删除特征 E 来构建模型会降低我的指标,那么这意味着特征 E 来自其他地方,即特征 A、B、C、D、F 以外的地方。
我不是 ML 方面的经验丰富的人,这些是我对这个问题的看法。
请问我的思路是否正确?
- If feature E is dependent on features A, B, C, D and F then not using feature E while building model should not affect my metrics much.
这实际上取决于您使用的模型,但举个简单的例子,假设您使用的是线性回归模型,并且您尝试预测的值是 y=x²
您无法找到具有简单线性回归量 (A*x+B) 的拟合模型。但是,您可以创建一个新特征 x' = x²,现在您可以拟合 y A*x'+b 。因此,依赖于其他特征组合的特征有时可以帮助您的模型。
- If I use features A, B, C, D and F to predict feature E and indeed use features A, B, C, D, E, F to predict G won't I be using correlated feature for model building because E is predicted using A, B, C, D and F. Using F won't add any extra information to my feature set.
这个问题比较棘手,因为这完全取决于你用来预测 E 的模型,以及你用来预测 y 的模型。 如果你对两者都使用一个简单的线性回归器,那么是的,E 将是其他变量的线性组合并且无助于预测 y。
但您可以想象使用非线性模型(如 RandomForest)预测 E,这可能有助于您的最终模型。
底线是:尝试的成本不高,只是要小心对两个模型使用相同的 train/test 以避免任何泄漏。