GradientBoostingClassifier 和许多列

GradientBoostingClassifier and many columns

我使用 GradientBoosting 分类器来预测用户的性别。数据有很多预测因素,其中之一就是国家。对于每个国家/地区,我都有二进制列。对于所有国家/地区列,始终只有一列设置为 1。但是从计算的角度来看,这样的决定是非常缓慢的。有没有办法只用一列来表示国家列?我是说正确的方法。

您可以将二进制变量替换为实际的国家/地区名称,然后将所有这些列合并为一列。使用此列上的 LabelEncoder 创建适当的整数变量,您应该已准备就绪。