特征选择的主要目的是什么?

What is the main purpose of Feature Selection?

我有一个小型医疗数据集(200 个样本),其中仅包含我尝试使用机器学习预测的 6 个病例。到目前为止,数据集没有被证明对预测目标变量有用,并且导致模型的召回率和精度为 0%,这可能是由于少数 class.

的稀缺性

但是,为了从数据集中学习,我应用了特征选择技术来推导出哪些特征对预测目标变量有用,看看这是否支持或矛盾以前的文献。

当我使用缩减的数据集重新运行我的模型时,召回率和准确率仍然为 0%。因此,使用特征选择并没有提高预测性能。但是应用特征选择返回的特征让我对数据有了更深入的了解。

所以我的问题是,特征选择的目的是:

那么换句话说,Feature Selection 只是一个提高性能的工具,还是它本身就是目的?

谢谢。

简而言之,两个答案都是正确的。

特征选择有两个主要目的:

  • 它减少了数据集中的特征数量。这减少了模型训练时间并减少了过度拟合的机会。
  • 它可以帮助您理解数据,即数据集中的哪些特征最重要。

因此,我不希望特征选择在训练您的模型时有所帮助,除非您过度拟合训练数据。

Tom 的回答很棒。我将添加另一个动机:它有助于模型从小数据集中学习更多(这是过度拟合的一个方面)。在您没有更多数据点的可扩展预算的 ML 任务中,特征选择可能是您最好的工具之一。