如何使用 tidyr 将长字符串值分成两列
How to seperate longer stringvalues with tidyr into two columns
当我尝试用(长)字符串值分隔列时:
df <- tbl_df(c("Indian | Londen", "Greek | Amsterdam", "Hamburger and BBQ | Paris du Nord"))
df <- separate(df, col = value, into = c("var1","var2"), sep = " | ")
我收到一条警告消息,说三个位置的值太多,当我查看更改后的数据框时,我没有得到所需的 df
# A tibble: 3 × 2
var1 var2
* <chr> <chr>
1 Indian |
2 Greek |
3 Hamburger and
它似乎在每个 space 分裂,有人知道解决这个问题的方法吗? var2 应该包含城市或地区名称,谢谢。
separate 当sep
参数是字符时将其解释为正则表达式。所以你需要在 regex, pattern |
(whitespace 或 whitespace) 与 regex 中的 whitespace 相同,这就是为什么您的字符串被 space 分割的原因:
df <- separate(df, col = value, into = c("var1","var2"), sep = " \| ")
df
# A tibble: 3 × 2
# var1 var2
#* <chr> <chr>
#1 Indian Londen
#2 Greek Amsterdam
#3 Hamburger and BBQ Paris du Nord
就这样吧:
由于管道在正则表达式中有特殊含义,表示"OR",因此您必须先将其转义。您也可以在字符 class [|]
下使用它来获得相同的结果
df1 <- separate(df, col = value, into = c("var1","var2"), sep = "\|")
或
df1 <- separate(df, col = value, into = c("var1","var2"), sep = "[|]")
BASE R方式:
dfx<- data.frame(do.call("rbind",strsplit(df$value,split="\|")))
输出:
> dfx
X1 X2
1 Indian Londen
2 Greek Amsterdam
3 Hamburger and BBQ Paris du Nord
当我尝试用(长)字符串值分隔列时:
df <- tbl_df(c("Indian | Londen", "Greek | Amsterdam", "Hamburger and BBQ | Paris du Nord"))
df <- separate(df, col = value, into = c("var1","var2"), sep = " | ")
我收到一条警告消息,说三个位置的值太多,当我查看更改后的数据框时,我没有得到所需的 df
# A tibble: 3 × 2
var1 var2
* <chr> <chr>
1 Indian |
2 Greek |
3 Hamburger and
它似乎在每个 space 分裂,有人知道解决这个问题的方法吗? var2 应该包含城市或地区名称,谢谢。
separate 当sep
参数是字符时将其解释为正则表达式。所以你需要在 regex, pattern |
(whitespace 或 whitespace) 与 regex 中的 whitespace 相同,这就是为什么您的字符串被 space 分割的原因:
df <- separate(df, col = value, into = c("var1","var2"), sep = " \| ")
df
# A tibble: 3 × 2
# var1 var2
#* <chr> <chr>
#1 Indian Londen
#2 Greek Amsterdam
#3 Hamburger and BBQ Paris du Nord
就这样吧:
由于管道在正则表达式中有特殊含义,表示"OR",因此您必须先将其转义。您也可以在字符 class [|]
下使用它来获得相同的结果
df1 <- separate(df, col = value, into = c("var1","var2"), sep = "\|")
或
df1 <- separate(df, col = value, into = c("var1","var2"), sep = "[|]")
BASE R方式:
dfx<- data.frame(do.call("rbind",strsplit(df$value,split="\|")))
输出:
> dfx
X1 X2
1 Indian Londen
2 Greek Amsterdam
3 Hamburger and BBQ Paris du Nord