如果变量用于设计因变量,我可以将其用作解释变量吗?
Can I use a variable as an explanatory variable if it is used to devise the dependant variable?
我正在尝试创建 3 个分类模型:朴素贝叶斯、随机森林和支持向量机。
我试图预测的变量是类别为 'hit' 或 'flop' 的 Film Verdict。我通过公式 Revenue/Budget 设计了这个变量的值,如果这个公式的值是 1+,它就被归类为命中,否则就失败了。
我的问题是:由于我已经使用 Revenue 和 Budget 创建了 Film Verdict 变量,我可以将这两个用作我模型中 explanatory/independent 变量的一部分吗?
澄清:我还有其他几个变量,例如 ActorRating、Tweet Polarity 等也用作输入变量。
是的,你可以。当您 predict
时可以使用的任何东西都可以使用。但是,在您的示例中,模型将非常基础,并且可以很容易地从输入变量中导出输出变量。
您可能想要阅读更多的内容:
Data Leakage
: 在 train 中使用测试中的内容
Heteroscedasticity
:当子种群与其他种群具有不同的变异性时
Collinearity
:自变量之间高度相关
Overfitting
:模型在训练和测试之间的表现如何
有些算法会删减某些问题,因此知道这一点将有助于您找到最佳算法。
它们的相关系数会很高,所以不应该使用。
我正在尝试创建 3 个分类模型:朴素贝叶斯、随机森林和支持向量机。
我试图预测的变量是类别为 'hit' 或 'flop' 的 Film Verdict。我通过公式 Revenue/Budget 设计了这个变量的值,如果这个公式的值是 1+,它就被归类为命中,否则就失败了。
我的问题是:由于我已经使用 Revenue 和 Budget 创建了 Film Verdict 变量,我可以将这两个用作我模型中 explanatory/independent 变量的一部分吗?
澄清:我还有其他几个变量,例如 ActorRating、Tweet Polarity 等也用作输入变量。
是的,你可以。当您 predict
时可以使用的任何东西都可以使用。但是,在您的示例中,模型将非常基础,并且可以很容易地从输入变量中导出输出变量。
您可能想要阅读更多的内容:
Data Leakage
: 在 train 中使用测试中的内容
Heteroscedasticity
:当子种群与其他种群具有不同的变异性时Collinearity
:自变量之间高度相关Overfitting
:模型在训练和测试之间的表现如何
有些算法会删减某些问题,因此知道这一点将有助于您找到最佳算法。
它们的相关系数会很高,所以不应该使用。