如何判断 Pandas/Scikit-Learn 一个字段如何影响预测模型

Question

我正在尝试 create/validate 使用虚构数据集的预测模型，将 Phyton 与 sklearn 结合使用，遵循 this 教程。

数据集包含有关棒球投手投掷的信息，这些是最重要的字段：

结果（玩家是否 successful/unsuccessful 罢工）
方向（无论是高、中还是低投掷）
球速、球员数据等其他字段

根据不同的领域，该模型将尝试预测投手应该投向哪个方向（方向领域）才能击球。

在我遵循的教程中（上面的 link），这是调用生成模型的函数的示例，在本例中用于逻辑回归（但我们可以使用任何列出的其他分类技术）：

outcome_var = 'Direction'
model = LogisticRegression()
predictor_var = ['Result', <insert other fields here>]
classification_model(model, df,predictor_var,outcome_var)

如何告诉模型有关结果字段的负面影响（和重要性）？

基本上，如果结果是"Successful"，它应该训练模型在面对相同场景时选择相同的方向（High/Medium/Low）。但是，如果 Result 是 "Unsuccessful"，它应该训练模型选择与样本中不同的方向，因为它不是一个好的选择（不管其他字段如何。）

如何告诉模型如何使用结果字段来做出决定？如果需要，我可以包含更多详细信息（或代码）。谢谢！

Answer 1

你不知道。

进行机器学习的全部意义在于让机器自动从数据中学习关系和规则。

因此，他们帮助模型找到此类关系的方法是为其提供尽可能多的（正确的）数据。有了足够的数据，一个体面的模型应该能够概括并找出 'Result' 字段对于预测 'Direction' 结果是否有用。

如何判断 Pandas/Scikit-Learn 一个字段如何影响预测模型

How to tell Pandas/Scikit-Learn how one field impacts predictive model

python

data-science

sklearn-pandas