回归问题的降维/降噪技术

Dimensionality / noise reduction techniques for regression problems

在回归问题中降维的技巧有哪些?我已经尝试了我所知道的唯一无监督技术,PCA 和 Kernel PCA(使用 scikit 学习库),但我没有看到使用这些技术有任何改进。也许这些只适用于分类问题?我可以尝试哪些其他技巧?最好是在sklearn中实现的。

这是一个非常笼统的问题,技术(或它们的组合)的适用性实际上取决于您的问题具体情况。

总的来说,降维有几类(除了你说的那些。

  1. 也许最简单的降维形式是只使用一些特征,在这种情况下我们真正谈论的是特征selection(参见sklearn's module)。

  2. 另一种方法是聚类 (sklearn's),并用其组件的集合替换每个聚类。

  3. 最后,一些回归器使用 l1 惩罚和凸优化的特性同时 select 一个特征子集;在 sklearn 中,参见 the lasso and elastic net.

再一次,这是一个非常广泛的问题。甚至有整本书籍和竞赛 selection 特征,它是降维的一个子集。

添加到@AmiTavory 的好答案:PCA 这里可以使用主成分分析。如果您不想执行 dimensionality reduction,只需保留 PCA 中与输入矩阵大小相同数量的特征向量:在您的情况下为 20。

结果输出将是正交特征向量:您可以认为它们提供您正在寻找的 "transformation" 如下:向量按它们代表输入的各自方差量排名。