预期模式“.+”是做什么的?
What does pexpect pattern ".+" do?
我有下一个代码:
test.py:
import pexpect
import sys
p = pexpect.spawn("ping 10.192.225.199", encoding="utf-8")
while True:
try:
index = p.expect([".+", pexpect.EOF, pexpect.TIMEOUT], timeout=1)
if index == 0:
print("===")
print(p.after)
print("===")
except Exception as e:
print(e)
执行:
$ python3 test.py
===
PING 10.192.225.199 (10.192.225.199) 56(84) bytes of data.
===
===
64 bytes from 10.192.225.199: icmp_seq=1 ttl=63 time=0.607 ms
===
===
64 bytes from 10.192.225.199: icmp_seq=2 ttl=63 time=0.587 ms
===
...
看起来 .+
可以在一次迭代中获取整行 ping command output
。
但是,有人向我建议this,在官方文档中,它说:
Beware of + and * at the end of patterns
Remember that any time you try to match a pattern that needs look-ahead that you will always get a minimal match (non greedy).
For example, the following will always return just one character:
child.expect ('.+')
This example will match successfully, but will always return no characters:
child.expect ('.*')
will always return just one character
是什么意思?为什么我可以在我的最小示例中得到完整的一行?每个循环不是应该一个字符吗?
顺便说一句,非常奇怪,如果我将.+
更改为.*
,那么就像文档中所说的那样:will always return no characters
。 .*
的行为与文档所述相同,但 .+
不是 ...
编辑: 更改了焦点以解决您真正想问的问题,正如您在评论中所阐明的那样。
Beware of + and * at the end of patterns
Remember that any time you try to match a pattern that needs look-ahead that you will always get a minimal match (non greedy).
For example, the following will always return just one character:
child.expect ('.+')
我不知道文档中的这一说法是否正确,但它与当前行为不符。正则表达式 .+
不
始终只匹配一个字符,即使单独使用也是如此。正则表达式 .*
在某些情况下可能匹配零个字符,但并非总是如此。正确的说法是:两个正则表达式都将匹配读取缓冲区中的任何内容,仅此而已。 为什么您的观察结果不同?由于 .+
必须至少消耗一个字符,因此它会触发一个读取操作——填充读取缓冲区。
说明
请记住,pexpect
是为与交互式进程进行通信而构建的:它的输入不仅仅是坐在那里等待读取,它是随着时间的推移动态生成的,以响应事件。所以 pexpect
除非有理由,否则不会尝试读取输入。如果输入缓冲区为空,并且期望可以满足零长度字符串,则不需要进一步读取,因此不会。更一般地说:如果期望可以满足已经存在的内容,则不会再尝试读取。
所以这是一个你可以用你的输入源尝试的实验:
>>> p.expect('6')
0
>>> p.after
'6'
>>> p.expect(".*")
0
>>> p.after
'4 bytes from 142.250.184.238: icmp_seq=38 ttl=112 ...'
这里发生了什么?第一个期望导致一行被读入(“64 字节来自...”),但只消耗了第一个字符。然后 .*
与其余匹配。
您可以通过至少消耗一个字符的单个期望获得相同的效果,例如6.*
或 ..*
等。与 .+
一样,这些将导致读取输入,然后消耗剩余的可用输入。
为了比较,请尝试使用真正的非贪婪正则表达式,.*?
和 .+?
。无论您在哪里使用它们,它们总是分别匹配零个或一个字符。
正如@alexis 所建议的,我附加了一个调试器来深入研究代码。
第一个实验,如下图,我在index = p.expect([".+", pexpect.EOF, pexpect.TIMEOUT], timeout=1)
设置断点,等待5秒后step over
(保证ping -c 4
完成以便我可以获得更多输出)。
有了这个,我发现只需一次p.expect
,我就可以获得ping -c 4
的所有输出。所以在我最初的例子中,我只能得到一行 p.expect
只是因为那时 pexpect 的缓冲区没有得到那么多数据。
第二个实验,如下图,我step in
对p.expect
,发现用index = searcher.search(window, len(data))
匹配
只有一次 p.expect
,当 window
有 434 characters
时,.+
的期望也使 spawn.after
有 434 characters
.
所以,我认为正如追随者的评论,文档有些不正确或过时。 .+
肯定不仅可以匹配缓冲区中的一个字符,长度仅取决于当前缓冲区中的字符数,以及 window 大小。
我有下一个代码:
test.py:
import pexpect
import sys
p = pexpect.spawn("ping 10.192.225.199", encoding="utf-8")
while True:
try:
index = p.expect([".+", pexpect.EOF, pexpect.TIMEOUT], timeout=1)
if index == 0:
print("===")
print(p.after)
print("===")
except Exception as e:
print(e)
执行:
$ python3 test.py
===
PING 10.192.225.199 (10.192.225.199) 56(84) bytes of data.
===
===
64 bytes from 10.192.225.199: icmp_seq=1 ttl=63 time=0.607 ms
===
===
64 bytes from 10.192.225.199: icmp_seq=2 ttl=63 time=0.587 ms
===
...
看起来 .+
可以在一次迭代中获取整行 ping command output
。
但是,有人向我建议this,在官方文档中,它说:
Beware of + and * at the end of patterns
Remember that any time you try to match a pattern that needs look-ahead that you will always get a minimal match (non greedy).
For example, the following will always return just one character:
child.expect ('.+')
This example will match successfully, but will always return no characters:
child.expect ('.*')
will always return just one character
是什么意思?为什么我可以在我的最小示例中得到完整的一行?每个循环不是应该一个字符吗?
顺便说一句,非常奇怪,如果我将.+
更改为.*
,那么就像文档中所说的那样:will always return no characters
。 .*
的行为与文档所述相同,但 .+
不是 ...
编辑: 更改了焦点以解决您真正想问的问题,正如您在评论中所阐明的那样。
Beware of + and * at the end of patterns Remember that any time you try to match a pattern that needs look-ahead that you will always get a minimal match (non greedy). For example, the following will always return just one character:
child.expect ('.+')
我不知道文档中的这一说法是否正确,但它与当前行为不符。正则表达式 .+
不
始终只匹配一个字符,即使单独使用也是如此。正则表达式 .*
在某些情况下可能匹配零个字符,但并非总是如此。正确的说法是:两个正则表达式都将匹配读取缓冲区中的任何内容,仅此而已。 为什么您的观察结果不同?由于 .+
必须至少消耗一个字符,因此它会触发一个读取操作——填充读取缓冲区。
说明
请记住,pexpect
是为与交互式进程进行通信而构建的:它的输入不仅仅是坐在那里等待读取,它是随着时间的推移动态生成的,以响应事件。所以 pexpect
除非有理由,否则不会尝试读取输入。如果输入缓冲区为空,并且期望可以满足零长度字符串,则不需要进一步读取,因此不会。更一般地说:如果期望可以满足已经存在的内容,则不会再尝试读取。
所以这是一个你可以用你的输入源尝试的实验:
>>> p.expect('6')
0
>>> p.after
'6'
>>> p.expect(".*")
0
>>> p.after
'4 bytes from 142.250.184.238: icmp_seq=38 ttl=112 ...'
这里发生了什么?第一个期望导致一行被读入(“64 字节来自...”),但只消耗了第一个字符。然后 .*
与其余匹配。
您可以通过至少消耗一个字符的单个期望获得相同的效果,例如6.*
或 ..*
等。与 .+
一样,这些将导致读取输入,然后消耗剩余的可用输入。
为了比较,请尝试使用真正的非贪婪正则表达式,.*?
和 .+?
。无论您在哪里使用它们,它们总是分别匹配零个或一个字符。
正如@alexis 所建议的,我附加了一个调试器来深入研究代码。
第一个实验,如下图,我在
index = p.expect([".+", pexpect.EOF, pexpect.TIMEOUT], timeout=1)
设置断点,等待5秒后step over
(保证ping -c 4
完成以便我可以获得更多输出)。有了这个,我发现只需一次
p.expect
,我就可以获得ping -c 4
的所有输出。所以在我最初的例子中,我只能得到一行p.expect
只是因为那时 pexpect 的缓冲区没有得到那么多数据。第二个实验,如下图,我
step in
对p.expect
,发现用index = searcher.search(window, len(data))
匹配只有一次
p.expect
,当window
有434 characters
时,.+
的期望也使spawn.after
有434 characters
.
所以,我认为正如追随者的评论,文档有些不正确或过时。 .+
肯定不仅可以匹配缓冲区中的一个字符,长度仅取决于当前缓冲区中的字符数,以及 window 大小。