Ruby 正则表达式连续唯一字符

Ruby Regex consecutive unique characters

给定字符串

aabbaacceeeeeaa

我正在尝试设计一个正则表达式来捕获包含三个任意数量的唯一字符的子字符串。

["aabbaacc", "bbaacc", "aacceeeeaa" "cceeeeaa"]. 

我试过

/[(\w)+]/ or /[(\w)(?!)]/

我知道这些不完整。我不确定我是否在正确的轨道上。

但我不确定如何排除已经匹配的字符,或者至少我似乎不能使用?!适当地。

祝您使用正则表达式好运,但如果您需要备用计划,....

def pull_subs(str, n)
  arr = str.chars
  (n..str.size).each_with_object([]) { |i,a| arr.each_cons(i) { |b|
    a << b.join if b.uniq.size == n } }
end

str = "aabbaacceeeeeaa"

pull_subs(str, 3)
  #=> ["baac", "acce", "bbaac", "baacc", "aacce", "accee", "abbaac", "bbaacc",
  #    "aaccee", "acceee", "aabbaac", "abbaacc", "aacceee", "acceeee", "ceeeeea",
  #    "aabbaacc", "aacceeee", "acceeeee", "cceeeeea", "ceeeeeaa", "aacceeeee",
  #    "acceeeeea", "cceeeeeaa", "aacceeeeea", "acceeeeeaa", "aacceeeeeaa"] 
pull_subs(str, 2)
  #=> ["ab", "ba", "ac", "ce", "ea", "aab", "abb", "bba", "baa", "aac", "acc",
  #    "cce", "cee", "eea", "eaa", "aabb", "abba", "bbaa", "aacc", "ccee",
  #    "ceee", "eeea", "eeaa", "aabba", "abbaa", "cceee", "ceeee", "eeeea", 
  #    "eeeaa", "aabbaa", "cceeee", "ceeeee", "eeeeea", "eeeeaa", "cceeeee", 
  #    "eeeeeaa"] 
pull_subs(str, 4)
  #=> ["baacce", "bbaacce", "baaccee", "abbaacce", "bbaaccee", "baacceee", 
  #    "aabbaacce", "abbaaccee", "bbaacceee", "baacceeee", "aabbaaccee", 
  #    "abbaacceee", "bbaacceeee", "baacceeeee", "aabbaacceee", "abbaacceeee",
  #    "bbaacceeeee", "baacceeeeea", "aabbaacceeee", "abbaacceeeee",
  #    "bbaacceeeeea", "baacceeeeeaa", "aabbaacceeeee", "abbaacceeeeea", 
  #    "bbaacceeeeeaa", "aabbaacceeeeea", "abbaacceeeeeaa", "aabbaacceeeeeaa"] 

scan 做不到,因为预期的子字符串重叠。最好的方法是使用索引。

很难使用正则表达式来排除从连续相同字母中间开始的匹配项。

s = "aabbaacceeeeeaa"

(1..s.length).map do
  |i|
  (s[i] != s[i + 1] || nil) &&
  /(.)*+(.)(?:|)*+(.)(?:||)*/.match(s, i - 1)&.[](0)
end.compact
# => ["aabbaacc", "bbaacc", "aacceeeeeaa", "cceeeeeaa"]