如果变量用于设计因变量,我可以将其用作解释变量吗?

Can I use a variable as an explanatory variable if it is used to devise the dependant variable?

我正在尝试创建 3 个分类模型:朴素贝叶斯、随机森林和支持向量机。

我试图预测的变量是类别为 'hit' 或 'flop' 的 Film Verdict。我通过公式 Revenue/Budget 设计了这个变量的值,如果这个公式的值是 1+,它就被归类为命中,否则就失败了。

我的问题是:由于我已经使用 Revenue 和 Budget 创建了 Film Verdict 变量,我可以将这两个用作我模型中 explanatory/independent 变量的一部分吗?

澄清:我还有其他几个变量,例如 ActorRating、Tweet Polarity 等也用作输入变量。

是的,你可以。当您 predict 时可以使用的任何东西都可以使用。但是,在您的示例中,模型将非常基础,并且可以很容易地从输入变量中导出输出变量。

您可能想要阅读更多的内容:

  • Data Leakage: 在 train
  • 中使用测试中的内容
  • Heteroscedasticity:当子种群与其他种群具有不同的变异性时
  • Collinearity:自变量之间高度相关
  • Overfitting:模型在训练和测试之间的表现如何

有些算法会删减某些问题,因此知道这一点将有助于您找到最佳算法。

它们的相关系数会很高,所以不应该使用。