逻辑回归的特征选择

Feature selection for Logistic Regression

Kaplan Meier方法和逻辑回归都有自己的特征选择。我想使用另一种方法来选择最佳特征,例如,反向逐步特征选择。是否可以使用这种方法来代替。

我的数据获取了 130 多个特征和大约 3000 个人。因为是医学[癌症]数据我不想用简单的方法。

可以在此处查看有关该项目的更多信息,按我应该做什么的顺序排列:

  1. 预处理数据
  2. 将它们分开进行测试和训练
  3. 火车数据的数据插补
  4. 通过训练数据选择特征
  5. 训练 Kaplan MeierLogistic 回归
  6. 模型
  7. 测试模型

请告诉我,对他们使用任何其他功能选择是否错误? 我也可以使用关于我列出的模型的任何提示。

基本上有 4 种特征选择 (fs) 技术,即:-

1.) 基于过滤器的 fs 2.) 基于包装器的 fs 3.) 嵌入式 fs 技术 4.) 混合 fs 技术

每个都有自己的优点和缺点。例如,当您想确定“一个”特征对输出变量是否重要时,使用过滤器 fs。所以如果你的数据集中有 400 个特征,你将不得不重复这 400 次!

基于包装的方法(正如您在问题中提到的),另一方面,这是一个步骤。但是它们容易过拟合,而基于过滤器的方法则不会。

嵌入式方法使用基于树的方法来实现 fs。

我对混合方法的了解不够。

我会说你可以使用一些基于包装器的技术,比如 RFECV,因为你说你不想使用简单的过滤技术。