混合数据类型中的特征选择

Feature selection in mixed data type

我有一个庞大的数据集,其中混合了数值变量和分类变量。我遇到过各种主要侧重于数字或分类数据的特征选择技术,而不是它们的混合体。是否有适用于此类数据集的特征选择技术?

您正在寻找 Boruta 软件包,它最初是用 R 编写的,但也可以在 python 中使用。 Boruta 使用随机森林对特征进行排序,但您首先必须处理特征中的所有缺失值,否则 boruta 会抛出错误。在这里查看更多信息:

https://datascience.stackexchange.com/questions/31112/boruta-feature-selection-package