python 正则表达式向前看正 + 负
python regex look ahead positive + negative
这个正则表达式将得到 456。我的问题是为什么它不能是 1-234-56 中的 234? 56 是否符合 (?!\d)) 模式,因为它不是单个数字。 (?!\d)) 寻找的起点在哪里?
import re
pattern = re.compile(r'\d{1,3}(?=(\d{3})+(?!\d))')
a = pattern.findall("The number is: 123456") ; print(a)
123,456这样的逗号分隔符还在第一阶段
a = pattern.findall("The number is: 123456") ; print(a)
results = pattern.finditer('123456')
for result in results:
print ( result.start(), result.end(), result)
My question is why it CANNOT be 234
from 1-234-56
?
这是不可能的,因为 (?=(\d{3})+(?!\d))
要求 3 位序列出现在 1-3 位序列之后。 56
(你想象中的最后一个数字组)是一个2位数字组。由于量词可以是懒惰的也可以是贪婪的,因此您不能将一位、两位和三位数字组都与 \d{1,3}
匹配。要从 123456
获取 234
,您需要为其专门定制的正则表达式:\B\d{3}
, or (?<=1)\d{3}
or even \d{3}(?=\d{2}(?!\d))
.
Does 56
match the (?!\d))
pattern? Where is the beginning point that (?!\d)) will look for?
不,这是一个否定的前瞻,它不匹配,它只检查输入字符串中当前位置之后是否没有数字。如果有数字,则匹配失败(未找到并返回结果)。
关于前瞻的更多说明:它位于 (\d{3})+
子模式之后,因此正则表达式引擎会在最后一个 3 位数字组之后开始搜索数字,如果该数字是,则匹配失败发现(因为它是一个负面的前瞻)。简单来说,the (?!\d)
是这个正则表达式中的一个数字 closing/trailing boundary。
更详细的细分:
\d{1,3}
- 1到3位数字序列,越多越好(使用贪心量词)
(?=(\d{3})+(?!\d))
- 正向前瞻 ((?=...)
) 检查之前匹配的 1-3 位数字序列是否跟随着
(\d{3})+
- 1 个或多个 (+
) 个恰好 3 位数字的序列...
(?!\d)
- 后面没有数字。
前瞻不匹配,不消耗字符,但您仍然可以在其中捕获。执行前瞻时,正则表达式索引与之前的字符相同。 使用您的正则表达式和输入,您可以将 123
与 \d{1,3}
匹配,因为这样您就有了 3 位数字序列 (456
)。但是 456
是 capured 在前瞻中,并且 re.findall
returns 只有在设置了捕获组的情况下才捕获文本。
要仅添加逗号作为数字分组符号,请使用
rx = r'\d(?=(?:\d{3})+(?!\d))'
这个正则表达式将得到 456。我的问题是为什么它不能是 1-234-56 中的 234? 56 是否符合 (?!\d)) 模式,因为它不是单个数字。 (?!\d)) 寻找的起点在哪里?
import re
pattern = re.compile(r'\d{1,3}(?=(\d{3})+(?!\d))')
a = pattern.findall("The number is: 123456") ; print(a)
123,456这样的逗号分隔符还在第一阶段
a = pattern.findall("The number is: 123456") ; print(a)
results = pattern.finditer('123456')
for result in results:
print ( result.start(), result.end(), result)
My question is why it CANNOT be
234
from1-234-56
?
这是不可能的,因为 (?=(\d{3})+(?!\d))
要求 3 位序列出现在 1-3 位序列之后。 56
(你想象中的最后一个数字组)是一个2位数字组。由于量词可以是懒惰的也可以是贪婪的,因此您不能将一位、两位和三位数字组都与 \d{1,3}
匹配。要从 123456
获取 234
,您需要为其专门定制的正则表达式:\B\d{3}
, or (?<=1)\d{3}
or even \d{3}(?=\d{2}(?!\d))
.
Does
56
match the(?!\d))
pattern? Where is the beginning point that (?!\d)) will look for?
不,这是一个否定的前瞻,它不匹配,它只检查输入字符串中当前位置之后是否没有数字。如果有数字,则匹配失败(未找到并返回结果)。
关于前瞻的更多说明:它位于 (\d{3})+
子模式之后,因此正则表达式引擎会在最后一个 3 位数字组之后开始搜索数字,如果该数字是,则匹配失败发现(因为它是一个负面的前瞻)。简单来说,the (?!\d)
是这个正则表达式中的一个数字 closing/trailing boundary。
更详细的细分:
\d{1,3}
- 1到3位数字序列,越多越好(使用贪心量词)(?=(\d{3})+(?!\d))
- 正向前瞻 ((?=...)
) 检查之前匹配的 1-3 位数字序列是否跟随着(\d{3})+
- 1 个或多个 (+
) 个恰好 3 位数字的序列...(?!\d)
- 后面没有数字。
前瞻不匹配,不消耗字符,但您仍然可以在其中捕获。执行前瞻时,正则表达式索引与之前的字符相同。 使用您的正则表达式和输入,您可以将 123
与 \d{1,3}
匹配,因为这样您就有了 3 位数字序列 (456
)。但是 456
是 capured 在前瞻中,并且 re.findall
returns 只有在设置了捕获组的情况下才捕获文本。
要仅添加逗号作为数字分组符号,请使用
rx = r'\d(?=(?:\d{3})+(?!\d))'