特征选择(Boruta)
Feature Selection(Boruta)
我正在做信用风险建模,数据中有大量 features.I 我正在使用 boruta 包来实现 selection 功能。该包的计算成本太高,我无法 运行 在完整的训练数据集上使用它。我想要做的是获取训练数据的一个子集(假设大约 20-30%)和 运行 子集数据上的 boruta 包并获得重要的特征。但是当我使用随机森林来训练数据时,我也使用了完整的数据集。我的问题是,select 仅在部分训练数据上使用特征然后在整个训练数据上构建模型是否正确?
由于这个问题本质上是合乎逻辑的,所以我会给出我的两分钱。
- 我相信 20% 的人口的单个随机样本就足够了
- 进一步采取 3-4 个这样的随机集,所有这些随机集的重要变量的交集是对上述的改进
- 使用多种方法的特征选择(xgboost,一些插入符号特征选择方法)-> 对每种方法使用不同的随机样本,然后取共同的显着特征
我正在做信用风险建模,数据中有大量 features.I 我正在使用 boruta 包来实现 selection 功能。该包的计算成本太高,我无法 运行 在完整的训练数据集上使用它。我想要做的是获取训练数据的一个子集(假设大约 20-30%)和 运行 子集数据上的 boruta 包并获得重要的特征。但是当我使用随机森林来训练数据时,我也使用了完整的数据集。我的问题是,select 仅在部分训练数据上使用特征然后在整个训练数据上构建模型是否正确?
由于这个问题本质上是合乎逻辑的,所以我会给出我的两分钱。
- 我相信 20% 的人口的单个随机样本就足够了
- 进一步采取 3-4 个这样的随机集,所有这些随机集的重要变量的交集是对上述的改进
- 使用多种方法的特征选择(xgboost,一些插入符号特征选择方法)-> 对每种方法使用不同的随机样本,然后取共同的显着特征