在 R 中有条件地拆分列
Splitting Column Conditionally in R
我的数据框看起来像这样:
Var
H2307
A123
F45fjhsk
category
J30HS
我希望它看起来像这样:
Var Var_1 Var_2
H2307 H 2307
A123 A 123
F45fjhsk NA NA
category NA NA
J30HS J 30HS
我试过这个的变体:
for (i in 1:length(dat$Var)){
if (nchar(dat$Var) < 7){
tx <- strsplit(dat$Var[i], split = "(?<=[a-zA-Z])(?=[0-9])", perl = T)
tx <- t(matrix(tx, nrow=2, ncol=length(tx)/2))
}
}
我认为这已经很接近了,但仍然行不通;拆分部分工作得很好。我有“< 7”,因为我要拆分的所有字符串都少于 7 个字符,因此它排除了 "F45fjhsk" 条目。
这里有一个选项 tidyr::extract
:
library(tidyr)
df <- df %>%
extract(Var, into=c("Var_1", "Var_2"), regex="^(?=.{1,7}$)([a-zA-Z]+)([0-9].*)$", remove=FALSE)
df
# Var Var_1 Var_2
#1 H2307 H 2307
#2 A123 A 123
#3 F45fjhsk <NA> <NA>
#4 category <NA> <NA>
#5 J30HS J 30HS
^(?=.{1,7}$)
asserts the total number of characters 小于或等于七; ([a-zA-Z]+)
匹配字符串开头的非数字部分; ([0-9].*)
匹配第一个数字后的所有内容。
您的正则表达式似乎排除了第二组中出现字母的可能性
([a-zA-Z])(.+)
通过在第二个集合中使用 (.+),您也可以处理这种情况。
我的数据框看起来像这样:
Var
H2307
A123
F45fjhsk
category
J30HS
我希望它看起来像这样:
Var Var_1 Var_2
H2307 H 2307
A123 A 123
F45fjhsk NA NA
category NA NA
J30HS J 30HS
我试过这个的变体:
for (i in 1:length(dat$Var)){
if (nchar(dat$Var) < 7){
tx <- strsplit(dat$Var[i], split = "(?<=[a-zA-Z])(?=[0-9])", perl = T)
tx <- t(matrix(tx, nrow=2, ncol=length(tx)/2))
}
}
我认为这已经很接近了,但仍然行不通;拆分部分工作得很好。我有“< 7”,因为我要拆分的所有字符串都少于 7 个字符,因此它排除了 "F45fjhsk" 条目。
这里有一个选项 tidyr::extract
:
library(tidyr)
df <- df %>%
extract(Var, into=c("Var_1", "Var_2"), regex="^(?=.{1,7}$)([a-zA-Z]+)([0-9].*)$", remove=FALSE)
df
# Var Var_1 Var_2
#1 H2307 H 2307
#2 A123 A 123
#3 F45fjhsk <NA> <NA>
#4 category <NA> <NA>
#5 J30HS J 30HS
^(?=.{1,7}$)
asserts the total number of characters 小于或等于七; ([a-zA-Z]+)
匹配字符串开头的非数字部分; ([0-9].*)
匹配第一个数字后的所有内容。
您的正则表达式似乎排除了第二组中出现字母的可能性
([a-zA-Z])(.+)
通过在第二个集合中使用 (.+),您也可以处理这种情况。