虚拟变量在回归模型中的组合效应
Combining effects of dummy variables in a regression model
我正在使用 Python Sklearn 构建一个包含大约 300 个特征的回归模型。其中一个特征有超过 100 个类别,我最终为此 feature.Now 拥有约 100 个虚拟列,每个虚拟列都有自己的系数,或特征排名分数(如果使用随机森林或 xgb)——这是我不喜欢的东西。但是,当我在 SAS JMP 中创建相同的模型时,它为具有 100 个类别的特征提供了一个特征分数——它显然会自动处理类别。谁能告诉我 SAS JMP 如何将 100 个虚拟变量的 coefficients/feature 重要性组合成一个指标。我怎样才能在 Python.
中达到同样的效果
我不确定 SAS JMP 是如何做到的,但我认为它可以通过不使用虚拟变量来工作。基于树的模型实际上原生支持分类数据,只是 sklearn 没有实现它 (yet). Furthermore, at least in some cases introducing dummy variables reduces the accuracy of the model as shown by this blog post.
您可以考虑使用另一个包,例如博客 post (H2O) 使用的包。
您可以 google SAS STAT 手册/用户指南。查看那里支持 Class 语句的任何主要回归过程。在 Class 下方,它详细说明了 Reference... 选项。它们都详细说明了设计矩阵是如何形成的。您喂养 100 个假人的方式一定足够明显,足以触发 JMP 回滚到临时 class 变量,该变量重新设计回一个单一变量。如果您想知道 JMP 究竟是如何触发回滚的,请访问 JMP 网站并打开技术支持通道。但从机械上讲,我相信这就是发生的事情。
我正在使用 Python Sklearn 构建一个包含大约 300 个特征的回归模型。其中一个特征有超过 100 个类别,我最终为此 feature.Now 拥有约 100 个虚拟列,每个虚拟列都有自己的系数,或特征排名分数(如果使用随机森林或 xgb)——这是我不喜欢的东西。但是,当我在 SAS JMP 中创建相同的模型时,它为具有 100 个类别的特征提供了一个特征分数——它显然会自动处理类别。谁能告诉我 SAS JMP 如何将 100 个虚拟变量的 coefficients/feature 重要性组合成一个指标。我怎样才能在 Python.
中达到同样的效果我不确定 SAS JMP 是如何做到的,但我认为它可以通过不使用虚拟变量来工作。基于树的模型实际上原生支持分类数据,只是 sklearn 没有实现它 (yet). Furthermore, at least in some cases introducing dummy variables reduces the accuracy of the model as shown by this blog post.
您可以考虑使用另一个包,例如博客 post (H2O) 使用的包。
您可以 google SAS STAT 手册/用户指南。查看那里支持 Class 语句的任何主要回归过程。在 Class 下方,它详细说明了 Reference... 选项。它们都详细说明了设计矩阵是如何形成的。您喂养 100 个假人的方式一定足够明显,足以触发 JMP 回滚到临时 class 变量,该变量重新设计回一个单一变量。如果您想知道 JMP 究竟是如何触发回滚的,请访问 JMP 网站并打开技术支持通道。但从机械上讲,我相信这就是发生的事情。