字符串替换忽略字符

String replace ignoring characters

我有以下字符串:

string <- c("ABDSFGHIJLKOP")

和子字符串列表:

sub <- c("ABDSF", "SFGH", "GHIJLKOP")

我想在每个子匹配之后包含 < 和 > 从而得到:

<ABD><SF><GH><GHIJKOP>

我已经通过对列表进行模式匹配尝试了以下代码,但是一旦匹配到 ABDSF,SFGH 就不再被识别,因为包含 < > 字符。有人有更好的主意吗?

library(stringr)
library(dplyr)
library(magrittr)

string <- c("ABDSFGHIJLKOP")
sub <- c("ABDSF", "SFGH", "GHIJLKOP")

for (s in sub){

string %<>% str_replace_all(., s, paste0('<', s,'>'))
}

print(string)


Result: [1] "<ABDSF><GHIJLKOP>"

编辑:上面代码的问题是,一旦插入 < > 字符,在第一个字符串匹配后,第二个字符串 SFGH 不再被识别,因为字符串现在是:

 <ABDSF>GHIJLKOP. 

所以我正在寻找一种方法来匹配忽略 <> 字符的子字符串。

#R version 3.3.2 

library(stringr)
library(magrittr)

string <- c("ABDSFGHIJLKOP")
sub <- c("ABDSF", "SFGH", "GHIJLKOP")
result <- c("")
for (s in sub){
temp<- c(str_extract(string, s))
if (!is.null(temp)) {
        temp<- paste("<",temp,">",sep = "")
        result <- paste(result,temp,sep = "")

    }
}
print(result)

结果:

[1] "<ABDSF><SFGH><GHIJLKOP>"

Rextester

中测试

sub 中的连续字符之间放置 [<>]*,然后用这些模式执行替换。没有使用包。

# test input
string <- "ABDSFGHIJLKOP"
subs <- c("ABDSF", "SFGH", "GHIJLKOP")

pats <- paste0("(", gsub("(?<=[EF])(.)(?=.)", "\1[<>]*", subs, perl = TRUE), ")")
s <- string
for(p in pats) s <- gsub(p, "<\1>", s)
s
## [1] "<ABD<SF><GH>IJLKOP>"

更新

关于下面的评论,如果我理解正确,我们可以添加 (?<=[EF]) 给出:

pats <- paste0("(", gsub("(?<=[EF])(.)(?=.)", "\1[<>]*", subs, perl = TRUE), ")")
s <- string
for(p in pats) s <- gsub(p, "<\1>", s)
s
## [1] "<ABDSF><GHIJLKOP>"