对可选捕获子表达式的模式反向引用
Pattern backreference to an optional capturing subexpression
试图使用Bash内置的正则表达式匹配来解析以下类型的字符串,这些字符串将被转换为Perl替换表达式(引号不是数据的一部分)
'~#A#B#'
#^ ^ ^-- Replacement string.
#| +---- Pattern string.
#+------ Regular expression indicator (no need to escape strings A and B),
# which is only allowed if strings A and B are surrounded with ##.
# Strings A and B may not contain #, but are allowed to have ~.
'#A#B#'
#^------ When regex indicator is missing, strings A and B will be escaped.
'A#B'
# Simplified form of '#A#B#', i. e. without the enclosing ##.
# Still none of the strings A and B is allowed to contain # at any position,
# but can have ~, so leading ~ should be treated as part of string A.
我尝试了以下模式(同样,没有引号):
'^((~)?(#))?([^#]+)#([^#]+)$'
也就是说,它声明前导 ~#
可选(并且其中的 ~
甚至更可选),然后捕获部分 A
和 B
,并要求尾随 #
仅当它出现在领导者中时才会出现。捕获前导 #
仅用于反向引用匹配 - 其他地方不需要它,而捕获 ~
以供脚本随后检查。
但是,该模式仅适用于最完整类型的输入数据:
'~#A#B#'
'#A#B#'
但不适用于
'A#B'
我。即,只要缺少前导部分,</code> 就无法匹配。但是如果把<code>
换成.*
,则匹配成功,可以看出${BASH_REMATCH[3]}
是一个空串。这是我不明白的地方,前提是未设置的变量在 Bash 中被视为空字符串。 我如何匹配反向引用和可选内容?
作为解决方法,我可以编写一个替代模式
'^(~?)#([^#]+)#([^#]+)#$|^([^#]+)#([^#]+)$'
但它会为每种可能的情况生成不同的捕获组,这使得代码不那么直观。
重要说明。正如@anubhava 在他的评论中提到的,反向引用匹配可能在某些 Bash 构建 中不可用(也许这是构建选项的问题而不是版本号,甚至是一些外部库)。这个问题当然是针对那些支持此类功能的Bash环境。
有两种方法可以解决这个问题:
与其将组设置为可选(换句话说,允许它根本不匹配),不如将其设置为强制但匹配空字符串。换句话说,将 (#)?
等结构更改为 (#?)
.
仅当第 3 组匹配时才使用条件匹配反向引用 </code>。为此,请将 <code>
更改为 (?(3)#|)
。
一般来说,第一个选项更好,因为它的可读性更好。此外,bash 的正则表达式似乎不支持条件构造,因此我们需要使选项 1 起作用。这很困难,因为附加条件是 ~
仅在 #
也存在时才被允许。如果 bash 支持前瞻,我们可以做类似 ((~)(?:#))?(#?)
的事情。但既然没有,我们就需要发挥创意。我想出了以下模式:
^((~(#))|(#?))([^#]+)#([^#]+)(|)$
Demo.
想法是利用交替运算符 |
来处理两种不同的情况:文本以 ~#
开头,或者不以 ~#
开头。 ((~(#))|(#?))
在第 2 组中捕获 ~#
并在可能的情况下在第 3 组中捕获 #
,但如果没有 ~
则它仅在组中捕获 #
(如果存在) 4. 然后我们可以在末尾使用 (|)
来匹配结尾的 #
,如果有开头的话(记住,如果文本以 [=20= 开头,则第 3 组捕获 #
],第 4 组捕获 #
或空字符串(如果文本 不是 以 ~#
开头)。
试图使用Bash内置的正则表达式匹配来解析以下类型的字符串,这些字符串将被转换为Perl替换表达式(引号不是数据的一部分)
'~#A#B#'
#^ ^ ^-- Replacement string.
#| +---- Pattern string.
#+------ Regular expression indicator (no need to escape strings A and B),
# which is only allowed if strings A and B are surrounded with ##.
# Strings A and B may not contain #, but are allowed to have ~.
'#A#B#'
#^------ When regex indicator is missing, strings A and B will be escaped.
'A#B'
# Simplified form of '#A#B#', i. e. without the enclosing ##.
# Still none of the strings A and B is allowed to contain # at any position,
# but can have ~, so leading ~ should be treated as part of string A.
我尝试了以下模式(同样,没有引号):
'^((~)?(#))?([^#]+)#([^#]+)$'
也就是说,它声明前导 ~#
可选(并且其中的 ~
甚至更可选),然后捕获部分 A
和 B
,并要求尾随 #
仅当它出现在领导者中时才会出现。捕获前导 #
仅用于反向引用匹配 - 其他地方不需要它,而捕获 ~
以供脚本随后检查。
但是,该模式仅适用于最完整类型的输入数据:
'~#A#B#'
'#A#B#'
但不适用于
'A#B'
我。即,只要缺少前导部分,</code> 就无法匹配。但是如果把<code>
换成.*
,则匹配成功,可以看出${BASH_REMATCH[3]}
是一个空串。这是我不明白的地方,前提是未设置的变量在 Bash 中被视为空字符串。 我如何匹配反向引用和可选内容?
作为解决方法,我可以编写一个替代模式
'^(~?)#([^#]+)#([^#]+)#$|^([^#]+)#([^#]+)$'
但它会为每种可能的情况生成不同的捕获组,这使得代码不那么直观。
重要说明。正如@anubhava 在他的评论中提到的,反向引用匹配可能在某些 Bash 构建 中不可用(也许这是构建选项的问题而不是版本号,甚至是一些外部库)。这个问题当然是针对那些支持此类功能的Bash环境。
有两种方法可以解决这个问题:
与其将组设置为可选(换句话说,允许它根本不匹配),不如将其设置为强制但匹配空字符串。换句话说,将
(#)?
等结构更改为(#?)
.仅当第 3 组匹配时才使用条件匹配反向引用
</code>。为此,请将 <code>
更改为(?(3)#|)
。
一般来说,第一个选项更好,因为它的可读性更好。此外,bash 的正则表达式似乎不支持条件构造,因此我们需要使选项 1 起作用。这很困难,因为附加条件是 ~
仅在 #
也存在时才被允许。如果 bash 支持前瞻,我们可以做类似 ((~)(?:#))?(#?)
的事情。但既然没有,我们就需要发挥创意。我想出了以下模式:
^((~(#))|(#?))([^#]+)#([^#]+)(|)$
Demo.
想法是利用交替运算符 |
来处理两种不同的情况:文本以 ~#
开头,或者不以 ~#
开头。 ((~(#))|(#?))
在第 2 组中捕获 ~#
并在可能的情况下在第 3 组中捕获 #
,但如果没有 ~
则它仅在组中捕获 #
(如果存在) 4. 然后我们可以在末尾使用 (|)
来匹配结尾的 #
,如果有开头的话(记住,如果文本以 [=20= 开头,则第 3 组捕获 #
],第 4 组捕获 #
或空字符串(如果文本 不是 以 ~#
开头)。