使用 data.table 重新编码变量
Recode a variable using data.table
我正在尝试使用 data.table 重新编码一个变量。我用谷歌搜索了将近 2 个小时,但找不到答案。
假设我有一个 data.table 如下:
DT <- data.table(V1=c(0L,1L,2L),
V2=LETTERS[1:3],
V4=1:12)
我想重新编码 V1 和 V2。对于 V1,我想将 1s 重新编码为 0,将 2s 重新编码为 1。
对于 V2,我想重新编码 A 到 T,B 到 K,C 到 D。
如果我用dplyr
,就简单了。
library(dplyr)
DT %>%
mutate(V1 = recode(V1, `1` = 0L, `2` = 1L)) %>%
mutate(V2 = recode(V2, A = "T", B = "K", C = "D"))
但我不知道如何在 data.table
中执行此操作
DT[V1==1, V1 := 0]
DT[V1==2, V1 := 1]
DT[V2=="A", V2 := "T"]
DT[V2=="B", V2 := "K"]
DT[V2=="C", V2 := "D"]
以上是我认为最好的代码。但是必须有更好更有效的方法来做到这一点。
编辑
我更改了重新编码 V2 的方式,使我的示例更通用。
我想这可能就是您要找的。在 :=
的左侧,我们命名要更新的变量,在右侧,我们有要更新相应变量的表达式。
DT[, c("V1","V2") := .(as.numeric(V1==2), sapply(V2, function(x) {if(x=="A") "T"
else if (x=="B") "K"
else if (x=="C") "D" }))]
# V1 V2 V4
#1: 0 T 1
#2: 0 K 2
#3: 1 D 3
#4: 0 T 4
#5: 0 K 5
#6: 1 D 6
#7: 0 T 7
#8: 0 K 8
#9: 1 D 9
#10: 0 T 10
#11: 0 K 11
#12: 1 D 12
或者,只需在 data.table
中使用 recode
:
library(dplyr)
DT[, c("V1","V2") := .(as.numeric(V1==2), recode(V2, "A" = "T", "B" = "K", "C" = "D"))]
使用 data.table
可以通过 加入时的更新来解决重新编码:
DT[.(V1 = 1:2, to = 0:1), on = "V1", V1 := i.to]
DT[.(V2 = LETTERS[1:3], to = c("T", "K", "D")), on = "V2", V2 := i.to]
将 DT
转换为
V1 V2 V4
1: 0 T 1
2: 0 K 2
3: 1 D 3
4: 0 T 4
5: 0 K 5
6: 1 D 6
7: 0 T 7
8: 0 K 8
9: 1 D 9
10: 0 T 10
11: 0 K 11
12: 1 D 12
编辑: @Frank 为了保险起见建议使用i.to
。
说明
表达式 .(V1 = 1:2, to = 0:1)
和 .(V2 = LETTERS[1:3], to = c("T", "K", "D"))
分别创建查找 tables 即时.
或者,查找 table 可以预先设置
lut1 <- data.table(V1 = 1:2, to = 0:1)
lut2 <- data.table(V2 = LETTERS[1:3], to = c("T", "K", "D"))
lut1
V1 to
1: 1 0
2: 2 1
lut2
V2 to
1: A T
2: B K
3: C D
然后,更新加入成为
DT[lut1, on = "V1", V1 := i.to]
DT[lut2, on = "V2", V2 := i.to]
编辑 2:如何动态使用此代码?
的答案
"如何动态使用此代码?"
因此,这是一个修改后的版本,其中要更新的列的名称作为字符变量提供 my_var_name
,但查找 table 仍然是在 上创建的-飞:
my_var_name <- "V1"
DT[.(from = 1:2, to = 0:1), on = paste0(my_var_name, "==from"),
(my_var_name) := i.to]
my_var_name <- "V2"
DT[.(from = LETTERS[1:3], to = c("T", "K", "D")), on = paste0(my_var_name, "==from"),
(my_var_name) := i.to]
有3点需要注意:
- 不是动态命名查找的第一列 table,而是使用固定名称
from
。这需要在不同命名的列之间进行连接(外键连接)。必须通过 on
参数指定要加入的列的名称。
on
参数接受 外键连接 形式 "V1==from"
的字符串。此字符串是使用 paste0()
. 动态创建的
- 在表达式
(my_var_name) := i.to
中,变量my_var_name
两边的括号强制使用my_var_name
. 的内容
使用预定义查找的动态代码 tables
现在,虽然要重新编码的列由变量动态指定,但要使用的查找 table 仍然在语句中 硬编码 ,这意味着我们中途停止了:我们还需要 select 动态地进行适当的查找 table。
这可以通过将查找 table 存储在一个列表中来实现,其中每个列表元素根据应该重新编码的 DT
的列命名:
lut_list <- list(
V1 = data.table(from = 1:2, to = 0:1),
V2 = data.table(from = LETTERS[1:3], to = c("T", "K", "D"))
)
lut_list
$V1
from to
<int> <int>
1: 1 0
2: 2 1
$V2
from to
<char> <char>
1: A T
2: B K
3: C D
现在,我们也可以从列表中动态选择合适的查找 table:
my_var_name <- "V1"
DT[lut_list[[my_var_name]], on = paste0(my_var_name, "==from"),
(my_var_name) := i.to]
更进一步,我们可以在 loop:[=45= 中重新编码 DT
的 所有 相关列]
for (v in intersect(names(lut_list), colnames(DT))) {
DT[lut_list[[v]], on = paste0(v, "==from"), (v) := i.to]
}
请注意,DT
通过引用更新,即,仅将受影响的元素替换就地,而不复制整个对象。因此,for
循环迭代地应用于同一数据对象。这是 data.table 的专长,不适用于 data.frames 或 tibbles。
来自 plyr 的 mapvalues() 与 data.table 相结合,效果非常好。
我将它用于大型数据(50 mio - 400 mio 行)。虽然我没有将它与其他可能性进行比较,但我发现清晰的语法很有价值,因为它意味着复杂的重新编码操作中的错误更少。
library(data.table)
library(plyr)
DT <- data.table(V1=c(0L,1L,2L),
V2=LETTERS[1:3],
V4=1:12)
DT[, V1 := mapvalues(V1, from=c(1, 2), to=c(0, 1))]
DT[, V2 := mapvalues(V2, from=c('A', 'B', 'C'), to=c('T', 'K', 'D'))]
对于更复杂的重新编码操作,我总是先用 NA 创建一个新变量,然后使用另一个 data.table 和从到向量作为变量。
在某些用例中更像是一个错误的功能是 mapvalues() 保留来自不在 from 参数中的旧变量的那些值。
如果您确定所有正确的值都在源向量中,那么这就是一个问题,因此 data.table 中不在该向量中的任何值都应该是 NA。
DT <- data.table(V1=c(LETTERS[1:3], 'i dont want this value transfered'),
V4=1:12)
map_DT <- data.table(from=c('A', 'B', 'C'), to=c('T', 'K', 'D'))
# NA variable to begin with is good practice because it is clearer to spot an error
DT[, V1_new := NA_character_]
DT[V1 %in% map_DT$from , V1_new := mapvalues(V1, from=map_DT$from, to=map_DT$to)][]
请注意,plyr 已被弃用,因此 mapvalues 函数在某种程度上有可能在未来某个时候消失。因此,建议的 update-joins 方法可能是更好的方法,尽管我发现 mapvalues 只是读起来更清晰一点。尽管 mapvalues 被弃用可能需要数年时间,但很可能需要很多年。但是,在决定是否将其用作工具时要牢记一些事情。
我正在尝试使用 data.table 重新编码一个变量。我用谷歌搜索了将近 2 个小时,但找不到答案。
假设我有一个 data.table 如下:
DT <- data.table(V1=c(0L,1L,2L),
V2=LETTERS[1:3],
V4=1:12)
我想重新编码 V1 和 V2。对于 V1,我想将 1s 重新编码为 0,将 2s 重新编码为 1。 对于 V2,我想重新编码 A 到 T,B 到 K,C 到 D。
如果我用dplyr
,就简单了。
library(dplyr)
DT %>%
mutate(V1 = recode(V1, `1` = 0L, `2` = 1L)) %>%
mutate(V2 = recode(V2, A = "T", B = "K", C = "D"))
但我不知道如何在 data.table
中执行此操作DT[V1==1, V1 := 0]
DT[V1==2, V1 := 1]
DT[V2=="A", V2 := "T"]
DT[V2=="B", V2 := "K"]
DT[V2=="C", V2 := "D"]
以上是我认为最好的代码。但是必须有更好更有效的方法来做到这一点。
编辑
我更改了重新编码 V2 的方式,使我的示例更通用。
我想这可能就是您要找的。在 :=
的左侧,我们命名要更新的变量,在右侧,我们有要更新相应变量的表达式。
DT[, c("V1","V2") := .(as.numeric(V1==2), sapply(V2, function(x) {if(x=="A") "T"
else if (x=="B") "K"
else if (x=="C") "D" }))]
# V1 V2 V4
#1: 0 T 1
#2: 0 K 2
#3: 1 D 3
#4: 0 T 4
#5: 0 K 5
#6: 1 D 6
#7: 0 T 7
#8: 0 K 8
#9: 1 D 9
#10: 0 T 10
#11: 0 K 11
#12: 1 D 12
或者,只需在 data.table
中使用 recode
:
library(dplyr)
DT[, c("V1","V2") := .(as.numeric(V1==2), recode(V2, "A" = "T", "B" = "K", "C" = "D"))]
使用 data.table
可以通过 加入时的更新来解决重新编码:
DT[.(V1 = 1:2, to = 0:1), on = "V1", V1 := i.to]
DT[.(V2 = LETTERS[1:3], to = c("T", "K", "D")), on = "V2", V2 := i.to]
将 DT
转换为
V1 V2 V4
1: 0 T 1
2: 0 K 2
3: 1 D 3
4: 0 T 4
5: 0 K 5
6: 1 D 6
7: 0 T 7
8: 0 K 8
9: 1 D 9
10: 0 T 10
11: 0 K 11
12: 1 D 12
编辑: @Frank 为了保险起见建议使用i.to
。
说明
表达式 .(V1 = 1:2, to = 0:1)
和 .(V2 = LETTERS[1:3], to = c("T", "K", "D"))
分别创建查找 tables 即时.
或者,查找 table 可以预先设置
lut1 <- data.table(V1 = 1:2, to = 0:1)
lut2 <- data.table(V2 = LETTERS[1:3], to = c("T", "K", "D"))
lut1
V1 to 1: 1 0 2: 2 1
lut2
V2 to 1: A T 2: B K 3: C D
然后,更新加入成为
DT[lut1, on = "V1", V1 := i.to]
DT[lut2, on = "V2", V2 := i.to]
编辑 2:如何动态使用此代码?
的答案因此,这是一个修改后的版本,其中要更新的列的名称作为字符变量提供 my_var_name
,但查找 table 仍然是在 上创建的-飞:
my_var_name <- "V1"
DT[.(from = 1:2, to = 0:1), on = paste0(my_var_name, "==from"),
(my_var_name) := i.to]
my_var_name <- "V2"
DT[.(from = LETTERS[1:3], to = c("T", "K", "D")), on = paste0(my_var_name, "==from"),
(my_var_name) := i.to]
有3点需要注意:
- 不是动态命名查找的第一列 table,而是使用固定名称
from
。这需要在不同命名的列之间进行连接(外键连接)。必须通过on
参数指定要加入的列的名称。 on
参数接受 外键连接 形式"V1==from"
的字符串。此字符串是使用paste0()
. 动态创建的
- 在表达式
(my_var_name) := i.to
中,变量my_var_name
两边的括号强制使用my_var_name
. 的内容
使用预定义查找的动态代码 tables
现在,虽然要重新编码的列由变量动态指定,但要使用的查找 table 仍然在语句中 硬编码 ,这意味着我们中途停止了:我们还需要 select 动态地进行适当的查找 table。
这可以通过将查找 table 存储在一个列表中来实现,其中每个列表元素根据应该重新编码的 DT
的列命名:
lut_list <- list(
V1 = data.table(from = 1:2, to = 0:1),
V2 = data.table(from = LETTERS[1:3], to = c("T", "K", "D"))
)
lut_list
$V1 from to <int> <int> 1: 1 0 2: 2 1 $V2 from to <char> <char> 1: A T 2: B K 3: C D
现在,我们也可以从列表中动态选择合适的查找 table:
my_var_name <- "V1"
DT[lut_list[[my_var_name]], on = paste0(my_var_name, "==from"),
(my_var_name) := i.to]
更进一步,我们可以在 loop:[=45= 中重新编码 DT
的 所有 相关列]
for (v in intersect(names(lut_list), colnames(DT))) {
DT[lut_list[[v]], on = paste0(v, "==from"), (v) := i.to]
}
请注意,DT
通过引用更新,即,仅将受影响的元素替换就地,而不复制整个对象。因此,for
循环迭代地应用于同一数据对象。这是 data.table 的专长,不适用于 data.frames 或 tibbles。
mapvalues() 与 data.table 相结合,效果非常好。
我将它用于大型数据(50 mio - 400 mio 行)。虽然我没有将它与其他可能性进行比较,但我发现清晰的语法很有价值,因为它意味着复杂的重新编码操作中的错误更少。
library(data.table)
library(plyr)
DT <- data.table(V1=c(0L,1L,2L),
V2=LETTERS[1:3],
V4=1:12)
DT[, V1 := mapvalues(V1, from=c(1, 2), to=c(0, 1))]
DT[, V2 := mapvalues(V2, from=c('A', 'B', 'C'), to=c('T', 'K', 'D'))]
对于更复杂的重新编码操作,我总是先用 NA 创建一个新变量,然后使用另一个 data.table 和从到向量作为变量。
在某些用例中更像是一个错误的功能是 mapvalues() 保留来自不在 from 参数中的旧变量的那些值。 如果您确定所有正确的值都在源向量中,那么这就是一个问题,因此 data.table 中不在该向量中的任何值都应该是 NA。
DT <- data.table(V1=c(LETTERS[1:3], 'i dont want this value transfered'),
V4=1:12)
map_DT <- data.table(from=c('A', 'B', 'C'), to=c('T', 'K', 'D'))
# NA variable to begin with is good practice because it is clearer to spot an error
DT[, V1_new := NA_character_]
DT[V1 %in% map_DT$from , V1_new := mapvalues(V1, from=map_DT$from, to=map_DT$to)][]
请注意,plyr 已被弃用,因此 mapvalues 函数在某种程度上有可能在未来某个时候消失。因此,建议的 update-joins 方法可能是更好的方法,尽管我发现 mapvalues 只是读起来更清晰一点。尽管 mapvalues 被弃用可能需要数年时间,但很可能需要很多年。但是,在决定是否将其用作工具时要牢记一些事情。