逻辑回归的特征选择
Feature selection for Logistic Regression
Kaplan Meier方法和逻辑回归都有自己的特征选择。我想使用另一种方法来选择最佳特征,例如,反向逐步特征选择。是否可以使用这种方法来代替。
我的数据获取了 130 多个特征和大约 3000 个人。因为是医学[癌症]数据我不想用简单的方法。
可以在此处查看有关该项目的更多信息,按我应该做什么的顺序排列:
- 预处理数据
- 将它们分开进行测试和训练
- 火车数据的数据插补
- 通过训练数据选择特征
- 训练 Kaplan Meier 和 Logistic 回归
模型
- 测试模型
请告诉我,对他们使用任何其他功能选择是否错误?
我也可以使用关于我列出的模型的任何提示。
基本上有 4 种特征选择 (fs) 技术,即:-
1.) 基于过滤器的 fs
2.) 基于包装器的 fs
3.) 嵌入式 fs 技术
4.) 混合 fs 技术
每个都有自己的优点和缺点。例如,当您想确定“一个”特征对输出变量是否重要时,使用过滤器 fs。所以如果你的数据集中有 400 个特征,你将不得不重复这 400 次!
基于包装的方法(正如您在问题中提到的),另一方面,这是一个步骤。但是它们容易过拟合,而基于过滤器的方法则不会。
嵌入式方法使用基于树的方法来实现 fs。
我对混合方法的了解不够。
我会说你可以使用一些基于包装器的技术,比如 RFECV,因为你说你不想使用简单的过滤技术。
Kaplan Meier方法和逻辑回归都有自己的特征选择。我想使用另一种方法来选择最佳特征,例如,反向逐步特征选择。是否可以使用这种方法来代替。
我的数据获取了 130 多个特征和大约 3000 个人。因为是医学[癌症]数据我不想用简单的方法。
可以在此处查看有关该项目的更多信息,按我应该做什么的顺序排列:
- 预处理数据
- 将它们分开进行测试和训练
- 火车数据的数据插补
- 通过训练数据选择特征
- 训练 Kaplan Meier 和 Logistic 回归 模型
- 测试模型
请告诉我,对他们使用任何其他功能选择是否错误? 我也可以使用关于我列出的模型的任何提示。
基本上有 4 种特征选择 (fs) 技术,即:-
1.) 基于过滤器的 fs 2.) 基于包装器的 fs 3.) 嵌入式 fs 技术 4.) 混合 fs 技术
每个都有自己的优点和缺点。例如,当您想确定“一个”特征对输出变量是否重要时,使用过滤器 fs。所以如果你的数据集中有 400 个特征,你将不得不重复这 400 次!
基于包装的方法(正如您在问题中提到的),另一方面,这是一个步骤。但是它们容易过拟合,而基于过滤器的方法则不会。
嵌入式方法使用基于树的方法来实现 fs。
我对混合方法的了解不够。
我会说你可以使用一些基于包装器的技术,比如 RFECV,因为你说你不想使用简单的过滤技术。