使用正则表达式检测序列

Question

假设我在这样的列表中有多个字符串：

[[1]]
 [1] "1-FA-1-I2-1-I2-1-I2-1-EX-1-I2-1-I3-1-FA-1-" 
 [2] "-1-I2-1-TR-1-"                              
 [3] "-1-I2-1-FA-1-I3-1-"                         
 [4] "-1-FA-1-FA-1-NR-1-I3-1-I2-1-TR-1-"          
 [5] "-1-I2-1-"                                   
 [6] "-1-I2-1-FA-1-I2-1-"                         
 [7] "-1-I3-1-FA-1-QU-1-"                         
 [8] "-1-I2-1-I2-1-I2-1-NR-1-I2-1-I2-1-NR-1-"     
 [9] "-1-I2-1-"                                   
[10] "-1-NR-1-I3-1-QU-1-I2-1-I3-1-QU-1-NR-1-I2-1-"
[11] "-1-NR-1-QU-1-QU-1-I2-1-"

我想使用正则表达式来检测某个子字符串在另一个子字符串之前的特定字符串，但不一定直接在另一个子字符串之前。

例如，假设我们正在寻找 EX 之前的 FA。这需要匹配列表中的 1。即使 FA 自身与 EX 之间有 -1-I2-1-I2-1-I2-1-，FA 仍然出现在 EX 之前，因此需要匹配。

如何定义一个通用正则表达式来识别某些子字符串以这种方式出现在另一个子字符串之前的字符串？

Answer 1

你可以使用 grep。

x <- c("1-FA-1-I2-1-I2-1-I2-1-EX-1-I2-1-I3-1-FA-1-" ,"-1-I2-1-TR-1-")
grepl("FA.*EX", x)
#[1]  TRUE FALSE
grep("FA.*EX", x)
#[1] 1

使用正则表达式检测序列

Detecting sequencing using regexes

regex

string

r

sequence-analysis