R: data.tables 中的 gsub 和 str_split_fixed

Question

我是 "converting" 从 data.frame 到 data.table

我现在有一个data.table：

library(data.table)


DT = data.table(ID = c("ab_cd.de","ab_ci.de","fb_cd.de","xy_cd.de"))
DT

         ID
1: ab_cd.de
2: ab_ci.de
3: fb_cd.de
4: xy_cd.de  

new_DT<- data.table(matrix(ncol = 2))
colnames(new_DT)<- c("test1", "test2")

我想首先：删除每个条目后的“.de”，并在下一步中用下划线分隔每个条目，并将输出保存在两个新列中。最终输出应如下所示：

   test1 test2
1    ab    cd
2    ab    ci
3    fb    cd
4    xy    cd

在 data.frame 我做了：

df = data.frame(ID = c("ab_cd.de","ab_ci.de","fb_cd.de","xy_cd.de"))
df

         ID
1: ab_cd.de
2: ab_ci.de
3: fb_cd.de
4: xy_cd.de


df[,1] <- gsub(".de", "", df[,1], fixed=FALSE)
df

      ID
1: ab_cd
2: ab_ci
3: fb_cd
4: xy_cd



 n <- 1
for (i in (1:length(df[,1]))){
    new_df[n,] <-str_split_fixed(df[i,1], "_", 2)
    n <- n+1
}
new_df

  test1 test2
1    ab    cd
2    ab    ci
3    fb    cd
4    xy    cd

感谢任何帮助！

Answer 1

删除后缀(.de)和sub:

后，您可以使用tstrsplit将列一分为二

DT[, c("test1", "test2") := tstrsplit(sub("\.de", "", ID), "_")][, ID := NULL][]

#   test1 test2
#1:    ab    cd
#2:    ab    ci
#3:    fb    cd
#4:    xy    cd

Answer 2

我们可以使用 extract 从 tidyr

library(tidyr)
df %>% 
   extract(ID, into = c('test1', 'test2'), '([^_]+)_([^.]+).*')
#  test1 test2
#1    ab    cd
#2    ab    ci
#3    fb    cd
#4    xy    cd

或使用data.table

library(data.table)
DT[, .(test1 = sub('_.*', '', ID), test2 = sub('[^_]+_([^.]+)\..*', '\1', ID))]
#   test1 test2
#1:    ab    cd
#2:    ab    ci
#3:    fb    cd
#4:    xy    cd

R: data.tables 中的 gsub 和 str_split_fixed

R: gsub and str_split_fixed in data.tables

r

gsub

strsplit

data.table