如何select best/worst数据集中的特征进行分类
How to select best/worst features in dataset for classification
我在 javascript 上做小型随机森林,我有一个带有特征的二维数组。其中一些大多是纯噪音,我想将它们从场景中移除。我坚持理解我需要为每个功能计算什么才能对最差功能进行评级。而且我找到了如何使用库在 R 上制作它,但我需要自己实现它的算法...
inb4:我已经在 wiki 上阅读了关于特征选择的内容,但它并没有多大帮助......
谢谢!
我的数据集如下所示:(3 class 和一些特征)
使用特征划分集合的意义在于它有助于计算最终分类。因此,best 功能将是一个足以使分类正确的功能,而 worst 将是将数据集划分为子集的功能每个都不比原始分类更容易分类(实际上,最糟糕的是甚至不将其划分为子集)。
因此,您正在寻找 "skewed" 您是如何根据特征获得子集的;越偏斜越好
有一些公式可以量化这个想法(我记得有点像 P(1-P)),但我必须让 一些 为你工作。
一些重要的特征选择技巧
1) 带套索惩罚的线性回归。 2)随机森林(要么
熵或基尼系数)。 3)前向逐步选择。 4) 落后
逐步选择。 5)P值
还有更多特征选择技术,如果您在 python 工作,您可以开始阅读 http://scikit-learn.org/stable/modules/feature_selection.html,您可以在其中找到有关使用特征选择技术的代码。
我在 javascript 上做小型随机森林,我有一个带有特征的二维数组。其中一些大多是纯噪音,我想将它们从场景中移除。我坚持理解我需要为每个功能计算什么才能对最差功能进行评级。而且我找到了如何使用库在 R 上制作它,但我需要自己实现它的算法...
inb4:我已经在 wiki 上阅读了关于特征选择的内容,但它并没有多大帮助...... 谢谢!
我的数据集如下所示:(3 class 和一些特征)
使用特征划分集合的意义在于它有助于计算最终分类。因此,best 功能将是一个足以使分类正确的功能,而 worst 将是将数据集划分为子集的功能每个都不比原始分类更容易分类(实际上,最糟糕的是甚至不将其划分为子集)。
因此,您正在寻找 "skewed" 您是如何根据特征获得子集的;越偏斜越好
有一些公式可以量化这个想法(我记得有点像 P(1-P)),但我必须让 一些 为你工作。
一些重要的特征选择技巧
1) 带套索惩罚的线性回归。 2)随机森林(要么 熵或基尼系数)。 3)前向逐步选择。 4) 落后 逐步选择。 5)P值
还有更多特征选择技术,如果您在 python 工作,您可以开始阅读 http://scikit-learn.org/stable/modules/feature_selection.html,您可以在其中找到有关使用特征选择技术的代码。