如何为监督机器学习项目构建目标变量

How to build target variable for supervised machine learning project

我是机器学习的新手,经验不多,做过一些项目。

现在我有一个项目是和保险有关的。所以我有关于客户的数据库,我将合并这些数据库以获得关于客户的所有可能信息,并且我有一个用于索赔的数据库。我需要建立一个模型来根据排名确定客户的风险程度。

我的问题:我需要建立我的目标变量,根据客户的风险程度对客户进行排名,这取决于索赔。我可以有不同的策略来做到这一点,但我对如何处理以下内容感到困惑: - 我是否应该在构建等级之前进行特定类型的分析,例如聚类,或者我需要有一个与项目提供者愿景相匹配的强大的理论假设。 - 如果我使用索赔数据库中的一些变量来建立行列,我以后应该如何处理它们。换句话说,我应该将它们从最终数据集中删除以进行训练,以避免与目标变量相关,还是我可以以不同的方式处理它们并保留它们。 - 如果我保留它们,是否有根据它们是分类变量还是连续变量对它们进行特殊处理。

每个机器学习项目的起点都是 EDA。首先创建一些特征,例如他们收到不良索赔的频率或收到的数量。然后做一些 EDA 来找出哪些特征更有用。其次,问题看起来像分类。聚类通常更难评估。

在数据科学中,当您建立业务模型时,EDA 探索性数据分析发挥着重要作用,其中包括数据清理、特征工程、过滤数据。如前所述,如何构建目标变量,这完全取决于您拥有的属性以及您想要应用什么模型,比如线性回归或逻辑回归或制作决策树。您需要使用这些算法。但最重要的是,您需要找出影响变量。这可能是输出和给定输入之间的核心关系,必须相应地给出优先级。还必须删除不增加任何价值的属性,因为这会导致过度拟合。 您也可以进行聚类。有趣的是,任何无监督学习都可以转化为监督学习的一种形式。也许您可以尝试进行逻辑回归或线性回归等......并找出最适合您项目的模型。