使用 data.table 重新编码变量

Recode a variable using data.table

我正在尝试使用 data.table 重新编码一个变量。我用谷歌搜索了将近 2 个小时,但找不到答案。

假设我有一个 data.table 如下:

DT <- data.table(V1=c(0L,1L,2L),
                 V2=LETTERS[1:3],
                 V4=1:12)

我想重新编码 V1 和 V2。对于 V1,我想将 1s 重新编码为 0,将 2s 重新编码为 1。 对于 V2,我想重新编码 A 到 T,B 到 K,C 到 D。

如果我用dplyr,就简单了。

library(dplyr)
DT %>% 
  mutate(V1 = recode(V1, `1` = 0L, `2` = 1L)) %>% 
  mutate(V2 = recode(V2, A = "T", B = "K", C = "D"))

但我不知道如何在 data.table

中执行此操作
DT[V1==1, V1 := 0]
DT[V1==2, V1 := 1]
DT[V2=="A", V2 := "T"]
DT[V2=="B", V2 := "K"]
DT[V2=="C", V2 := "D"]

以上是我认为最好的代码。但是必须有更好更有效的方法来做到这一点。


编辑

我更改了重新编码 V2 的方式,使我的示例更通用。

我想这可能就是您要找的。在 := 的左侧,我们命名要更新的变量,在右侧,我们有要更新相应变量的表达式。

DT[, c("V1","V2") := .(as.numeric(V1==2), sapply(V2, function(x) {if(x=="A") "T" 
                                                     else if (x=="B") "K" 
                                                     else if (x=="C") "D" }))]

 #   V1 V2 V4
 #1:  0  T  1
 #2:  0  K  2
 #3:  1  D  3
 #4:  0  T  4
 #5:  0  K  5
 #6:  1  D  6
 #7:  0  T  7
 #8:  0  K  8
 #9:  1  D  9
#10:  0  T 10
#11:  0  K 11
#12:  1  D 12

或者,只需在 data.table 中使用 recode:

library(dplyr)
DT[, c("V1","V2") := .(as.numeric(V1==2), recode(V2, "A" = "T", "B" = "K", "C" = "D"))]

使用 data.table 可以通过 加入时的更新来解决重新编码:

DT[.(V1 = 1:2, to = 0:1), on = "V1", V1 := i.to]
DT[.(V2 = LETTERS[1:3], to = c("T", "K", "D")), on = "V2", V2 := i.to]

DT 转换为

    V1 V2 V4
 1:  0  T  1
 2:  0  K  2
 3:  1  D  3
 4:  0  T  4
 5:  0  K  5
 6:  1  D  6
 7:  0  T  7
 8:  0  K  8
 9:  1  D  9
10:  0  T 10
11:  0  K 11
12:  1  D 12

编辑: @Frank 为了保险起见建议使用i.to

说明

表达式 .(V1 = 1:2, to = 0:1).(V2 = LETTERS[1:3], to = c("T", "K", "D")) 分别创建查找 tables 即时.

或者,查找 table 可以预先设置

lut1 <- data.table(V1 = 1:2, to = 0:1)
lut2 <- data.table(V2 = LETTERS[1:3], to = c("T", "K", "D"))

lut1
   V1 to
1:  1  0
2:  2  1
lut2
   V2 to
1:  A  T
2:  B  K
3:  C  D

然后,更新加入成为

DT[lut1, on = "V1", V1 := i.to]
DT[lut2, on = "V2", V2 := i.to]

编辑 2:如何动态使用此代码?

的答案

"如何动态使用此代码?"

因此,这是一个修改后的版本,其中要更新的列的名称作为字符变量提供 my_var_name,但查找 table 仍然是在 上创建的-飞:

my_var_name <- "V1"
DT[.(from = 1:2, to = 0:1), on = paste0(my_var_name, "==from"), 
   (my_var_name) := i.to]
my_var_name <- "V2"
DT[.(from = LETTERS[1:3], to = c("T", "K", "D")), on = paste0(my_var_name, "==from"), 
   (my_var_name) := i.to]

有3点需要注意:

  1. 不是动态命名查找的第一列 table,而是使用固定名称 from。这需要在不同命名的列之间进行连接(外键连接)。必须通过 on 参数指定要加入的列的名称。
  2. on 参数接受 外键连接 形式 "V1==from" 的字符串。此字符串是使用 paste0().
  3. 动态创建的
  4. 在表达式(my_var_name) := i.to中,变量my_var_name两边的括号强制使用my_var_name.
  5. 的内容

使用预定义查找的动态代码 tables

现在,虽然要重新编码的列由变量动态指定,但要使用的查找 table 仍然在语句中 硬编码 ,这意味着我们中途停止了:我们还需要 select 动态地进行适当的查找 table。

这可以通过将查找 table 存储在一个列表中来实现,其中每个列表元素根据应该重新编码的 DT 的列命名:

 lut_list  <- list(
  V1 = data.table(from = 1:2, to = 0:1),
  V2 = data.table(from = LETTERS[1:3], to = c("T", "K", "D"))
)
lut_list
$V1
    from    to
   <int> <int>
1:     1     0
2:     2     1

$V2
     from     to
   <char> <char>
1:      A      T
2:      B      K
3:      C      D

现在,我们也可以从列表中动态选择合适的查找 table:

my_var_name <- "V1"
DT[lut_list[[my_var_name]], on = paste0(my_var_name, "==from"), 
   (my_var_name) := i.to]

更进一步,我们可以在 loop:[=45= 中重新编码 DT 所有 相关列]

for (v in intersect(names(lut_list), colnames(DT))) {
  DT[lut_list[[v]], on = paste0(v, "==from"), (v) := i.to]
}

请注意,DT 通过引用更新,即,仅将受影响的元素替换就地,而不复制整个对象。因此,for 循环迭代地应用于同一数据对象。这是 的专长,不适用于 data.frames 或 tibbles。

来自 plyr 的

mapvalues() 与 data.table 相结合,效果非常好。

我将它用于大型数据(50 mio - 400 mio 行)。虽然我没有将它与其他可能性进行比较,但我发现清晰的语法很有价值,因为它意味着复杂的重新编码操作中的错误更少。

library(data.table)
library(plyr)


DT <- data.table(V1=c(0L,1L,2L),
                 V2=LETTERS[1:3],
                 V4=1:12)


DT[, V1 := mapvalues(V1, from=c(1, 2), to=c(0, 1))]
DT[, V2 := mapvalues(V2, from=c('A', 'B', 'C'), to=c('T', 'K', 'D'))]

对于更复杂的重新编码操作,我总是先用 NA 创建一个新变量,然后使用另一个 data.table 和从到向量作为变量。

在某些用例中更像是一个错误的功能是 mapvalues() 保留来自不在 from 参数中的旧变量的那些值。 如果您确定所有正确的值都在源向量中,那么这就是一个问题,因此 data.table 中不在该向量中的任何值都应该是 NA。

DT <- data.table(V1=c(LETTERS[1:3], 'i dont want this value transfered'),
                 V4=1:12)
map_DT <- data.table(from=c('A', 'B', 'C'), to=c('T', 'K', 'D'))


# NA variable to begin with is good practice because it is clearer to spot an error  
DT[, V1_new := NA_character_]
DT[V1 %in% map_DT$from , V1_new := mapvalues(V1, from=map_DT$from, to=map_DT$to)][]

请注意,plyr 已被弃用,因此 mapvalues 函数在某种程度上有可能在未来某个时候消失。因此,建议的 update-joins 方法可能是更好的方法,尽管我发现 mapvalues 只是读起来更清晰一点。尽管 mapvalues 被弃用可能需要数年时间,但很可能需要很多年。但是,在决定是否将其用作工具时要牢记一些事情。