为什么基于树的模型不需要对标称数据进行单热编码?
why tree-based model do not need one-hot encoding for nominal data?
我们通常对nominal data做one-hot encoding,使计算特征间的distance或weight更合理,但我经常听说像随机森林或增强模型这样的基于树的模型不需要做 one-hot 编码但是我在网上搜索过并不知道,谁能告诉我为什么或者指导我一些材料来弄清楚?
but I often heard that tree-based model like random forest or boosting
model do not need do one-hot encoding
这不一定是真的,因为某些实现会对数值变量和分类变量应用不同的逻辑,因此最好为您使用的库适当地编码分类变量。
但是,有时对决策树模型使用数字编码可能没问题,因为它们只是在寻找分割数据的地方,而不是将输入乘以权重, 例如。将此与将 red=1, blue=2
解释为意味着蓝色是 两倍 红色的神经网络进行对比,这显然不是您想要的。
我们通常对nominal data做one-hot encoding,使计算特征间的distance或weight更合理,但我经常听说像随机森林或增强模型这样的基于树的模型不需要做 one-hot 编码但是我在网上搜索过并不知道,谁能告诉我为什么或者指导我一些材料来弄清楚?
but I often heard that tree-based model like random forest or boosting model do not need do one-hot encoding
这不一定是真的,因为某些实现会对数值变量和分类变量应用不同的逻辑,因此最好为您使用的库适当地编码分类变量。
但是,有时对决策树模型使用数字编码可能没问题,因为它们只是在寻找分割数据的地方,而不是将输入乘以权重, 例如。将此与将 red=1, blue=2
解释为意味着蓝色是 两倍 红色的神经网络进行对比,这显然不是您想要的。