如何判断 Pandas/Scikit-Learn 一个字段如何影响预测模型

How to tell Pandas/Scikit-Learn how one field impacts predictive model

我正在尝试 create/validate 使用虚构数据集的预测模型,将 Phyton 与 sklearn 结合使用,遵循 this 教程。

数据集包含有关棒球投手投掷的信息,这些是最重要的字段:

根据不同的领域,该模型将尝试预测投手应该投向哪个方向(方向领域)才能击球。

在我遵循的教程中(上面的 link),这是调用生成模型的函数的示例,在本例中用于逻辑回归(但我们可以使用任何列出的其他分类技术):

outcome_var = 'Direction'
model = LogisticRegression()
predictor_var = ['Result', <insert other fields here>]
classification_model(model, df,predictor_var,outcome_var) 

如何告诉模型有关结果字段的负面影响(和重要性)?

基本上,如果结果是"Successful",它应该训练模型在面对相同场景时选择相同的方向(High/Medium/Low)。但是,如果 Result 是 "Unsuccessful",它应该训练模型选择与样本中不同的方向,因为它不是一个好的选择(不管其他字段如何。)

如何告诉模型如何使用结果字段来做出决定?如果需要,我可以包含更多详细信息(或代码)。谢谢!

你不知道。

进行机器学习的全部意义在于让机器自动从数据中学习关系和规则。

因此,他们帮助模型找到此类关系的方法是为其提供尽可能多的(正确的)数据。有了足够的数据,一个体面的模型应该能够概括并找出 'Result' 字段对于预测 'Direction' 结果是否有用。