python 正则表达式向前看正 + 负

python regex look ahead positive + negative

这个正则表达式将得到 456。我的问题是为什么它不能是 1-234-56 中的 234? 56 是否符合 (?!\d)) 模式,因为它不是单个数字。 (?!\d)) 寻找的起点在哪里?

import re
pattern = re.compile(r'\d{1,3}(?=(\d{3})+(?!\d))')
a = pattern.findall("The number is: 123456") ; print(a)

123,456这样的逗号分隔符还在第一阶段

a = pattern.findall("The number is: 123456") ; print(a)
results = pattern.finditer('123456')
  for result in results:
    print ( result.start(), result.end(), result)

My question is why it CANNOT be 234 from 1-234-56?

这是不可能的,因为 (?=(\d{3})+(?!\d)) 要求 3 位序列出现在 1-3 位序列之后。 56(你想象中的最后一个数字组)是一个2位数字组。由于量词可以是懒惰的也可以是贪婪的,因此您不能将一位、两位和三位数字组都与 \d{1,3} 匹配。要从 123456 获取 234,您需要为其专门定制的正则表达式:\B\d{3}, or (?<=1)\d{3} or even \d{3}(?=\d{2}(?!\d)).

Does 56 match the (?!\d)) pattern? Where is the beginning point that (?!\d)) will look for?

不,这是一个否定的前瞻,它不匹配,它只检查输入字符串中当前位置之后是否没有数字。如果有数字,则匹配失败(未找到并返回结果)。

关于前瞻的更多说明:它位于 (\d{3})+ 子模式之后,因此正则表达式引擎会在最后一个 3 位数字组之后开始搜索数字,如果该数字是,则匹配失败发现(因为它是一个负面的前瞻)。简单来说,the (?!\d) 是这个正则表达式中的一个数字 closing/trailing boundary

更详细的细分:

  • \d{1,3} - 1到3位数字序列,越多越好(使用贪心量词)
  • (?=(\d{3})+(?!\d)) - 正向前瞻 ((?=...)) 检查之前匹配的 1-3 位数字序列是否跟随着
    • (\d{3})+ - 1 个或多个 (+) 个恰好 3 位数字的序列...
    • (?!\d) - 后面没有数字。

前瞻不匹配,不消耗字符,但您仍然可以在其中捕获。执行前瞻时,正则表达式索引与之前的字符相同。 使用您的正则表达式和输入,您可以将 123\d{1,3} 匹配,因为这样您就有了 3 位数字序列 (456)。但是 456capured 在前瞻中,并且 re.findall returns 只有在设置了捕获组的情况下才捕获文本。

要仅添加逗号作为数字分组符号,请使用

rx = r'\d(?=(?:\d{3})+(?!\d))'

IDEONE demo