在 Sklearn 中离散化 RandomForest 的连续变量
Discretizing continuous variables for RandomForest in Sklearn
我想使用随机森林进行基于基尼指数的特征选择。我的数据集混合了数字(连续)和分类(字符串)数据。这是数据集的示例
变量 1 变量 2
第198话
第336关
252.3 crIgUHSK8h
第252话
我知道树适用于离散数据(分类),但是 Sklearn 中的 RandomForest 是否需要先离散化连续数字数据或者它可以处理它?对于分类字符串变量,我使用以下代码将字符串编码为带有零和一的数字列
pandas.get_dummies(X['Var2'])
它有效,但对于数字我尝试了以下离散化
pandas.qcut(X['Var1'], 2 , retbins=True)
但我一直收到非唯一垃圾箱的错误消息!
我需要离散化吗?我该怎么做?
随机森林应该支持连续变量没问题。例如参见 [=10=].
当您根据分类值制作虚拟变量时,树木和森林的效果会更差。
您只需要标记分类特征 - 仅此而已!
我想使用随机森林进行基于基尼指数的特征选择。我的数据集混合了数字(连续)和分类(字符串)数据。这是数据集的示例
变量 1 变量 2
第198话
第336关
252.3 crIgUHSK8h
第252话
我知道树适用于离散数据(分类),但是 Sklearn 中的 RandomForest 是否需要先离散化连续数字数据或者它可以处理它?对于分类字符串变量,我使用以下代码将字符串编码为带有零和一的数字列
pandas.get_dummies(X['Var2'])
它有效,但对于数字我尝试了以下离散化
pandas.qcut(X['Var1'], 2 , retbins=True)
但我一直收到非唯一垃圾箱的错误消息!
我需要离散化吗?我该怎么做?
随机森林应该支持连续变量没问题。例如参见 [=10=].
当您根据分类值制作虚拟变量时,树木和森林的效果会更差。
您只需要标记分类特征 - 仅此而已!