在 R 中将特定字符串与 HGVS 格式分开
separating specific strings from HGVS format in R
我试图从 HGVS 短突变格式中分离出“>”符号前后的特定字符串,示例如下:
"p.1258_1259EE>E" "p.286_287RR>R" "p.57_58KK>K" "p.287_288AA>A"
我想实现的是从第一个字符串"p.1258_1259EE>E"开始说,我可以得到以下内容:
starting_position end_position initial_aa mutant_aa
1258 1259 EE E
286 287 RR R
57 58 KK K
似乎比我最初想象的要复杂一些。希望这里有人可以提供帮助。谢谢童童
如果模式相同,base R
选项将使用 sub
格式化字符串以引入通用 sep
并在 read.csv
df1 <- read.csv(text= sub("^[^0-9]+([0-9]+)_([0-9]+)([A-Z]+)>([A-Z]+)",
"\1,\2,\3,\4", v1), header = FALSE, stringsAsFactors = FALSE,
col.names = c('starting_position', 'end_position', 'initial_aa', 'mutant_aa'))
df1
# starting_position end_position initial_aa mutant_aa
#1 1258 1259 EE E
#2 286 287 RR R
#3 57 58 KK K
#4 287 288 AA A
数据
v1 <- c("p.1258_1259EE>E", "p.286_287RR>R", "p.57_58KK>K", "p.287_288AA>A")
我试图从 HGVS 短突变格式中分离出“>”符号前后的特定字符串,示例如下:
"p.1258_1259EE>E" "p.286_287RR>R" "p.57_58KK>K" "p.287_288AA>A"
我想实现的是从第一个字符串"p.1258_1259EE>E"开始说,我可以得到以下内容:
starting_position end_position initial_aa mutant_aa
1258 1259 EE E
286 287 RR R
57 58 KK K
似乎比我最初想象的要复杂一些。希望这里有人可以提供帮助。谢谢童童
如果模式相同,base R
选项将使用 sub
格式化字符串以引入通用 sep
并在 read.csv
df1 <- read.csv(text= sub("^[^0-9]+([0-9]+)_([0-9]+)([A-Z]+)>([A-Z]+)",
"\1,\2,\3,\4", v1), header = FALSE, stringsAsFactors = FALSE,
col.names = c('starting_position', 'end_position', 'initial_aa', 'mutant_aa'))
df1
# starting_position end_position initial_aa mutant_aa
#1 1258 1259 EE E
#2 286 287 RR R
#3 57 58 KK K
#4 287 288 AA A
数据
v1 <- c("p.1258_1259EE>E", "p.286_287RR>R", "p.57_58KK>K", "p.287_288AA>A")