正则表达式匹配不在括号或大括号内的管道与嵌套块
Regex to match pipes not within brackets or braces with nested blocks
我正在尝试解析一些 wiki 标记。例如,以下内容:
{{Some infobox royalty|testing
| name = Louis
| title = Prince Napoléon
| elevation_imperial_note= <ref name="usgs">{{cite web|url={{Gnis3|1802764}}|title=USGS}}</ref>
| a = [[AA|aa]] | b = {{cite
|title=TITLE
|author=AUTHOR}}
}}
可以是开头的文字。我首先删除了开头 {{
和结尾 }}
,因此我可以假设它们都消失了。
我想对字符串执行 .split(<regex>)
以将字符串拆分为不在大括号或方括号内的所有 |
个字符。正则表达式需要忽略 [[AA|aa]]
、<ref name="usgs">{{cite web|url={{Gnis3|1802764}}|title=USGS}}</ref>
和 {{cite|title=TITLE|author=AUTHOR}}
中的 |
字符。预期结果是:
[
'testing'
'name = Louis',
'title = Prince Napoléon',
'elevation_imperial_note= <ref name="usgs">{{cite web|url={{Gnis3|1802764}}|title=USGS}}</ref>',
'a = [[AA|aa]]',
'b = {{cite\n|title=TITLE\n|author=AUTHOR}}'
]
任何地方都可以换行,所以我不能只找\n|
。如果里面有多余的白色space就可以了。我可以轻松去除多余的 \s*
或 \n*
.
以下是纯Ruby的解决方案。我假设字符串中的大括号和方括号是平衡的。
str =<<BITTER_END
Some infobox royalty|testing
| name = Louis
| title = Prince Napoléon
| elevation_imperial_note= <ref name="usgs">{{cite web|url={{Gnis3|1802764}}|title=USGS}}</ref>
| a = [[AA|aa]] | b = {{cite
|title=TITLE
|author=AUTHOR}}
BITTER_END
stack = []
last = 0
str.each_char.with_index.with_object([]) do |(c,i),locs|
puts "c=#{c}, i=#{i}, locs=#{locs}, stack=#{stack}"
case c
when ']', '}'
puts " pop #{c} from stack"
stack.pop
when '[', '{'
puts " push #{c} onto stack"
stack << c
when '|'
puts stack.empty? ? " record location of #{c}" : " skip | as stack is non-empty"
locs << i if stack.empty?
end
puts " after: locs=#{locs}, stack=#{stack}"
end.map do |i|
old_last = last
last = i+1
str[old_last..i-1].strip if i > 0
end.tap { |a| a << str[last..-1].strip if last < str.size }
#=> ["Some infobox royalty",
# "testing",
# "name = Louis",
# "title = Prince Napoléon",
# "elevation_imperial_note= <ref name=\"usgs\">
# {{cite web|url={{Gnis3|1802764}}|title=USGS}}</ref>",
# "a = [[AA|aa]]",
# "b = {{cite\n|title=TITLE\n|author=AUTHOR}}"]
请注意,为了提高可读性,我打破了作为返回数组倒数第二个元素的字符串1。
说明
关于如何确定要拆分的管道符号的位置的解释,运行 上面的 Heredoc 来确定 str
(Heredoc 需要先取消缩进),然后 运行 以下代码。一切都会揭晓。 (输出很长,所以关注数组 locs
和 stack
的变化。)
stack = []
str.each_char.with_index.with_object([]) do |(c,i),locs|
puts "c=#{c}, i=#{i}, locs=#{locs}, stack=#{stack}"
case c
when ']', '}'
puts " pop #{c} from stack"
stack.pop
when '[', '{'
puts " push #{c} onto stack"
stack << c
when '|'
puts stack.empty? ? " record location of #{c}" : " skip | as stack is non-empty"
locs << i if stack.empty?
end
puts " after: locs=#{locs}, stack=#{stack}"
end
#=> [20, 29, 44, 71, 167, 183]
如果需要,可以确认大括号和括号是平衡的,如下所示。
def balanced?(str)
h = { '}'=>'{', ']'=>'[' }
stack = []
str.each_char do |c|
case c
when '[', '{'
stack << c
when ']', '}'
stack.last == h[c] ? (stack.pop) : (return false)
end
end
stack.empty?
end
balanced?(str)
#=> true
balanced?("[[{]}]")
#=> false
1 ...并且,为了透明起见,有机会使用某个词。
正则表达式不能处理任意嵌套(比如这里的括号),因此是这个解析问题的错误工具。如果找不到现成的 MediaWiki 标记解析器,则需要使用实际的解析器库(例如 Treetop),而不是正则表达式。
使用拆分方法拆分字符串通常比扫描所需的子字符串更复杂。
跳过括号之间的管道相对容易,您所要做的就是定义能够匹配最终嵌套括号的子模式并在主模式中使用它们。这样,它们之间的管道就会被忽略。
要确保不匹配主要 {{...}}
块之外的管道,如果有的话,您必须使用基于 \G
的模式。 \G
是最后一次成功匹配后位置的锚点。它确保每个匹配项都与前一个匹配项相邻。由于结束 }}
永远不会在主模式中使用,因此您可以确定在达到此模式时模式将失败并且不可能进行进一步的匹配。
pat = /
# subpatterns
(?<cb> { [^{}]*+ (?: \g<cb> [^{}]* )*+ } ){0} # curly brackets
(?<sb> \[ [^\]\[]*+ (?: \g<sb> [^\]\[]* )*+ \] ){0} # square brackets
(?<nbpw> [^|{}\]\[\s]+ ){0} # no brackets, pipes nor white-spaces
# main pattern
(?:
\G (?!\A) \s* # other contigous matches branch
|
{{ [^|{}]*+ # first match branch
# check if curly brackets are balanced until }} (optional but recommended)
(?= [^{}]*+ (?: \g<cb> [^{}]* )*+ }} )
)
\| \s*
(?<result>
\g<nbpw>?
(?: \s* (?: \g<cb> | \g<sb> | \s \g<nbpw> ) \g<nbpw>? )*
)
/x
str.scan(pat).map{|item| item[3]}
请注意,结果已经针对空格进行了修剪。
如果您想使用它一次处理多个 {{...}}
块,请在模式的第二个分支周围添加一个捕获组以了解下一个块何时开始。
我正在尝试解析一些 wiki 标记。例如,以下内容:
{{Some infobox royalty|testing
| name = Louis
| title = Prince Napoléon
| elevation_imperial_note= <ref name="usgs">{{cite web|url={{Gnis3|1802764}}|title=USGS}}</ref>
| a = [[AA|aa]] | b = {{cite
|title=TITLE
|author=AUTHOR}}
}}
可以是开头的文字。我首先删除了开头 {{
和结尾 }}
,因此我可以假设它们都消失了。
我想对字符串执行 .split(<regex>)
以将字符串拆分为不在大括号或方括号内的所有 |
个字符。正则表达式需要忽略 [[AA|aa]]
、<ref name="usgs">{{cite web|url={{Gnis3|1802764}}|title=USGS}}</ref>
和 {{cite|title=TITLE|author=AUTHOR}}
中的 |
字符。预期结果是:
[
'testing'
'name = Louis',
'title = Prince Napoléon',
'elevation_imperial_note= <ref name="usgs">{{cite web|url={{Gnis3|1802764}}|title=USGS}}</ref>',
'a = [[AA|aa]]',
'b = {{cite\n|title=TITLE\n|author=AUTHOR}}'
]
任何地方都可以换行,所以我不能只找\n|
。如果里面有多余的白色space就可以了。我可以轻松去除多余的 \s*
或 \n*
.
以下是纯Ruby的解决方案。我假设字符串中的大括号和方括号是平衡的。
str =<<BITTER_END
Some infobox royalty|testing
| name = Louis
| title = Prince Napoléon
| elevation_imperial_note= <ref name="usgs">{{cite web|url={{Gnis3|1802764}}|title=USGS}}</ref>
| a = [[AA|aa]] | b = {{cite
|title=TITLE
|author=AUTHOR}}
BITTER_END
stack = []
last = 0
str.each_char.with_index.with_object([]) do |(c,i),locs|
puts "c=#{c}, i=#{i}, locs=#{locs}, stack=#{stack}"
case c
when ']', '}'
puts " pop #{c} from stack"
stack.pop
when '[', '{'
puts " push #{c} onto stack"
stack << c
when '|'
puts stack.empty? ? " record location of #{c}" : " skip | as stack is non-empty"
locs << i if stack.empty?
end
puts " after: locs=#{locs}, stack=#{stack}"
end.map do |i|
old_last = last
last = i+1
str[old_last..i-1].strip if i > 0
end.tap { |a| a << str[last..-1].strip if last < str.size }
#=> ["Some infobox royalty",
# "testing",
# "name = Louis",
# "title = Prince Napoléon",
# "elevation_imperial_note= <ref name=\"usgs\">
# {{cite web|url={{Gnis3|1802764}}|title=USGS}}</ref>",
# "a = [[AA|aa]]",
# "b = {{cite\n|title=TITLE\n|author=AUTHOR}}"]
请注意,为了提高可读性,我打破了作为返回数组倒数第二个元素的字符串1。
说明
关于如何确定要拆分的管道符号的位置的解释,运行 上面的 Heredoc 来确定 str
(Heredoc 需要先取消缩进),然后 运行 以下代码。一切都会揭晓。 (输出很长,所以关注数组 locs
和 stack
的变化。)
stack = []
str.each_char.with_index.with_object([]) do |(c,i),locs|
puts "c=#{c}, i=#{i}, locs=#{locs}, stack=#{stack}"
case c
when ']', '}'
puts " pop #{c} from stack"
stack.pop
when '[', '{'
puts " push #{c} onto stack"
stack << c
when '|'
puts stack.empty? ? " record location of #{c}" : " skip | as stack is non-empty"
locs << i if stack.empty?
end
puts " after: locs=#{locs}, stack=#{stack}"
end
#=> [20, 29, 44, 71, 167, 183]
如果需要,可以确认大括号和括号是平衡的,如下所示。
def balanced?(str)
h = { '}'=>'{', ']'=>'[' }
stack = []
str.each_char do |c|
case c
when '[', '{'
stack << c
when ']', '}'
stack.last == h[c] ? (stack.pop) : (return false)
end
end
stack.empty?
end
balanced?(str)
#=> true
balanced?("[[{]}]")
#=> false
1 ...并且,为了透明起见,有机会使用某个词。
正则表达式不能处理任意嵌套(比如这里的括号),因此是这个解析问题的错误工具。如果找不到现成的 MediaWiki 标记解析器,则需要使用实际的解析器库(例如 Treetop),而不是正则表达式。
使用拆分方法拆分字符串通常比扫描所需的子字符串更复杂。
跳过括号之间的管道相对容易,您所要做的就是定义能够匹配最终嵌套括号的子模式并在主模式中使用它们。这样,它们之间的管道就会被忽略。
要确保不匹配主要 {{...}}
块之外的管道,如果有的话,您必须使用基于 \G
的模式。 \G
是最后一次成功匹配后位置的锚点。它确保每个匹配项都与前一个匹配项相邻。由于结束 }}
永远不会在主模式中使用,因此您可以确定在达到此模式时模式将失败并且不可能进行进一步的匹配。
pat = /
# subpatterns
(?<cb> { [^{}]*+ (?: \g<cb> [^{}]* )*+ } ){0} # curly brackets
(?<sb> \[ [^\]\[]*+ (?: \g<sb> [^\]\[]* )*+ \] ){0} # square brackets
(?<nbpw> [^|{}\]\[\s]+ ){0} # no brackets, pipes nor white-spaces
# main pattern
(?:
\G (?!\A) \s* # other contigous matches branch
|
{{ [^|{}]*+ # first match branch
# check if curly brackets are balanced until }} (optional but recommended)
(?= [^{}]*+ (?: \g<cb> [^{}]* )*+ }} )
)
\| \s*
(?<result>
\g<nbpw>?
(?: \s* (?: \g<cb> | \g<sb> | \s \g<nbpw> ) \g<nbpw>? )*
)
/x
str.scan(pat).map{|item| item[3]}
请注意,结果已经针对空格进行了修剪。
如果您想使用它一次处理多个 {{...}}
块,请在模式的第二个分支周围添加一个捕获组以了解下一个块何时开始。