如何select best/worst数据集中的特征进行分类

How to select best/worst features in dataset for classification

我在 javascript 上做小型随机森林，我有一个带有特征的二维数组。其中一些大多是纯噪音，我想将它们从场景中移除。我坚持理解我需要为每个功能计算什么才能对最差功能进行评级。而且我找到了如何使用库在 R 上制作它，但我需要自己实现它的算法...

inb4：我已经在 wiki 上阅读了关于特征选择的内容，但它并没有多大帮助...... 谢谢！

我的数据集如下所示：（3 class 和一些特征）

使用特征划分集合的意义在于它有助于计算最终分类。因此，best 功能将是一个足以使分类正确的功能，而 worst 将是将数据集划分为子集的功能每个都不比原始分类更容易分类（实际上，最糟糕的是甚至不将其划分为子集）。

因此，您正在寻找 "skewed" 您是如何根据特征获得子集的；越偏斜越好

有一些公式可以量化这个想法（我记得有点像 P(1-P)），但我必须让一些为你工作。

一些重要的特征选择技巧

1) 带套索惩罚的线性回归。 2）随机森林（要么熵或基尼系数）。 3）前向逐步选择。 4) 落后逐步选择。 5）P值

还有更多特征选择技术，如果您在 python 工作，您可以开始阅读 http://scikit-learn.org/stable/modules/feature_selection.html，您可以在其中找到有关使用特征选择技术的代码。