在 R 中处理 ID 变量和因子
Handling ID variables and Factors in R
我有这个数据集,我想构建
一些型号并进行比较。
但是我很困惑产品ID自变量应该如何。
我有这个数据集,所有变量都是数字,但是product ID变量是int,如下所示:
Data set
str(data)
'data.frame': 16 obs. of 6 variables:
$ Productid: int 1 2 3 4 5 6 7 8 9 10 ...
$ x1 : num 6.21 7.75 7.21 8.33 4.87 5.09 6.04 6.09 6.08 6.17 ...
$ x2 : num 7.08 3.29 4.38 2.79 7.71 7.5 6.58 5.13 5.5 5.58 ...
$ x3 : num 2 1.54 1.79 1.63 1.96 2.13 2.04 2 2.09 2.13 ...
$ x4 : num 2.54 2.26 2.58 2.71 1.7 2.42 2.04 2.42 2.46 2.48 ...
$ Y : num 4.97 6.98 4.58 6.45 4.33 4.26 6.16 6.26 5.83 5.74 ...
如何处理这个产品ID?我应该做一个热编码吗?
如果解决方案是将其转换为因子,那么什么 ML 算法接受因子?
ID 仅用于识别产品,但对因变量没有任何影响,因此不应包含在任何模型中。
我有这个数据集,我想构建 一些型号并进行比较。
但是我很困惑产品ID自变量应该如何。
我有这个数据集,所有变量都是数字,但是product ID变量是int,如下所示:
Data set
str(data)
'data.frame': 16 obs. of 6 variables:
$ Productid: int 1 2 3 4 5 6 7 8 9 10 ...
$ x1 : num 6.21 7.75 7.21 8.33 4.87 5.09 6.04 6.09 6.08 6.17 ...
$ x2 : num 7.08 3.29 4.38 2.79 7.71 7.5 6.58 5.13 5.5 5.58 ...
$ x3 : num 2 1.54 1.79 1.63 1.96 2.13 2.04 2 2.09 2.13 ...
$ x4 : num 2.54 2.26 2.58 2.71 1.7 2.42 2.04 2.42 2.46 2.48 ...
$ Y : num 4.97 6.98 4.58 6.45 4.33 4.26 6.16 6.26 5.83 5.74 ...
如何处理这个产品ID?我应该做一个热编码吗?
如果解决方案是将其转换为因子,那么什么 ML 算法接受因子?
ID 仅用于识别产品,但对因变量没有任何影响,因此不应包含在任何模型中。