在R中提取括号中的文本

Extract text in parentheses in R

两个相关的问题。我有文本数据向量,例如

"a(b)jk(p)"  "ipq"  "e(ijkl)"

并希望轻松地将其分离为包含括号外文本的向量:

"ajk"  "ipq"  "e"

和一个包含括号内文本的向量:

"bp"   ""  "ijkl"

有什么简单的方法可以做到这一点吗?一个额外的困难是这些可能会变得非常大并且有大量(无限)的括号。因此,我不能简单地抓住 text "pre/post" 括号并需要更智能的解决方案。

括号外的文字

> x <- c("a(b)jk(p)"  ,"ipq" , "e(ijkl)")
> gsub("\([^()]*\)", "", x)
[1] "ajk" "ipq" "e"  

括号内的文字

> x <- c("a(b)jk(p)"  ,"ipq" , "e(ijkl)")
> gsub("(?<=\()[^()]*(?=\))(*SKIP)(*F)|.", "", x, perl=T)
[1] "bp"   ""     "ijkl"

(?<=\()[^()]*(?=\)) 匹配括号内的所有字符,然后后面的 (*SKIP)(*F) 使匹配失败。现在它尝试对剩余的字符串执行 | 符号之后的模式。所以点 . 匹配所有尚未跳过的字符。用空字符串替换所有匹配的字符将只给出球拍内的文本。

> gsub("\(([^()]*)\)|.", "\1", x, perl=T)
[1] "bp"   ""     "ijkl"

此正则表达式将捕获括号内出现的所有字符并匹配所有其他字符。 |. or part 有助于匹配除捕获字符之外的所有剩余字符。因此,通过将所有字符替换为组索引 1 中存在的字符,将为您提供所需的输出。

我维护的qdapRegex package中的rm_round函数就是为了做这个而生的:

首先我们将通过pacman

获取并加载包
if (!require("pacman")) install.packages("pacman")
pacman::p_load(qdapRegex)

##然后我们就可以使用它来移除和提取你想要的部分:

x <-c("a(b)jk(p)", "ipq", "e(ijkl)")

rm_round(x)

## [1] "ajk" "ipq" "e" 

rm_round(x, extract=TRUE)

## [[1]]
## [1] "b" "p"
## 
## [[2]]
## [1] NA
## 
## [[3]]
## [1] "ijkl"

要压缩 bp 使用:

sapply(rm_round(x, extract=TRUE), paste, collapse="")

## [1] "bp"   "NA"   "ijkl"