什么时候在分类问题中采用虚拟变量?
When to take dummy variables in classification problems?
我正在做一个二元分类问题,预测客户是否会订阅某个活动(针对航空业)。
我的数据集在客户和活动名称级别,有 43 个变量正在考虑中。
有些变量是十分位数(1 到 10)和像教育水平(0 到 5)这样的变量。对于教育水平,我们不能说 4 的受教育程度是 2 的两倍。我应该如何处理我的变量?
我需要将这些变量转换为虚拟变量(0 或 1),我是 运行 逻辑回归、随机森林、R 中的 Xgboost。
如果我将这些转换为虚拟变量(因子分析抛出错误),我如何检查变量重要性
我认为您确实需要虚拟变量。如何将 educational level
转换为多个变量,如下所示:
educational level:1
educational level:2
educational level:3
等等。然后你可以为每个变量提供虚拟变量。
例如,
educational level:1
yes:1 no:0
educational level:2
yes:1 no:0
然后将您的数据拟合到逻辑模型中,并尝试使用 "cross validation" 等某种方式对其重新采样。但是我不太确定"variable importance"
,你的意思是这个变量在统计上显着还是...?
我正在做一个二元分类问题,预测客户是否会订阅某个活动(针对航空业)。
我的数据集在客户和活动名称级别,有 43 个变量正在考虑中。
有些变量是十分位数(1 到 10)和像教育水平(0 到 5)这样的变量。对于教育水平,我们不能说 4 的受教育程度是 2 的两倍。我应该如何处理我的变量?
我需要将这些变量转换为虚拟变量(0 或 1),我是 运行 逻辑回归、随机森林、R 中的 Xgboost。 如果我将这些转换为虚拟变量(因子分析抛出错误),我如何检查变量重要性
我认为您确实需要虚拟变量。如何将 educational level
转换为多个变量,如下所示:
educational level:1
educational level:2
educational level:3
等等。然后你可以为每个变量提供虚拟变量。
例如,
educational level:1
yes:1 no:0
educational level:2
yes:1 no:0
然后将您的数据拟合到逻辑模型中,并尝试使用 "cross validation" 等某种方式对其重新采样。但是我不太确定"variable importance"
,你的意思是这个变量在统计上显着还是...?