python 正则表达式如何避免匹配多个分号？

Question

我正准备编写一个正则表达式来提取子字符串。字符串是：

ASP.NET_SessionId=frffcjcarie4dhxouz5yklwu;+BIGipServercapitaliq-ssl=3617221783.36895.0000;+ObSSOCookie=wkyQfn2Cyx2%2f7kSj4zBB886WaLs92Ord9FSf64c%2byHFOBwgEP4f3UmorDj051suQwRXAKEwBtYVKRYJuUGh2YNZtAj2%2bNp8asLIT9xQPqVktEAzkl3jNIv8MyWFsoFPDtm%2fTm1FeaCP%2bGTk9Oa%2fCNA0Hmy847qK2qo7%2bbziV%2bjeClbkGjAX3pgcPzfs%2bQp7p9BSjP1xJqUaUKwJ2%2flIgzZL5Ma%2bnJK8j%2b732ixNyIDNDGo7uIF%2b;+machineIdCookie=866873600;+userLoggedIn=jga;sdgjefdfdfs

我想提取一个以 ObSSOCookie=....; 开头并在 userLoggedIn 之前结束的子字符串。

我设置了正则表达式模式

pattern = "ObSSOCookie=.*;"

但它继续提取直到 last 分号（包括 +machineIdCookie=866873600），而不是 first 分号，这就是我想要的。

有没有办法只提取到第一个分号？而且我不能只通过“;”使用 split因为这个正则表达式实际上是在 Logstash 配置文件中使用的，并且没有办法在那里使用 python 风格的编码...

Answer 1

为什么不像这样 (demo)

只抢下一个 ; 以外的任何东西

 ObSSOCookie=([^;]*)


>>> import re
>>> data = 'ASP.NET_SessionId=frffcjcarie4dhxouz5yklwu;+BIGipServercapitaliq-ssl=3617221783.36895.0000;+ObSSOCookie=wkyQfn2Cyx2%2f7kSj4zBB886WaLs92Ord9FSf64c%2byHFOBwgEP4f3UmorDj051suQwRXAKEwBtYVKRYJuUGh2YNZtAj2%2bNp8asLIT9xQPqVktEAzkl3jNIv8MyWFsoFPDtm%2fTm1FeaCP%2bGTk9Oa%2fCNA0Hmy847qK2qo7%2bbziV%2bjeClbkGjAX3pgcPzfs%2bQp7p9BSjP1xJqUaUKwJ2%2flIgzZL5Ma%2bnJK8j%2b732ixNyIDNDGo7uIF%2b;+machineIdCookie=866873600;+userLoggedIn=jga;sdgjefdfdfs'
>>> p = re.compile('ObSSOCookie=([^;]*)')
>>> m = p.search(data)
>>> m.group(1)
'wkyQfn2Cyx2%2f7kSj4zBB886WaLs92Ord9FSf64c%2byHFOBwgEP4f3UmorDj051suQwRXAKEwBtYVKRYJuUGh2YNZtAj2%2bNp8asLIT9xQPqVktEAzkl3jNIv8MyWFsoFPDtm%2fTm1FeaCP%2bGTk9Oa%2fCNA0Hmy847qK2qo7%2bbziV%2bjeClbkGjAX3pgcPzfs%2bQp7p9BSjP1xJqUaUKwJ2%2flIgzZL5Ma%2bnJK8j%2b732ixNyIDNDGo7uIF%2b'

Answer 2

您想使您的正则表达式非贪婪

而不是使用这个

*  - zero or more

使用这个

*? - zero or more (non-greedy)

这是你的表情 (demo)。

ObSSOCookie=(.*?;)

这是一个通用技术，在 this answer 中也有描述。

python 正则表达式如何避免匹配多个分号？

python regex how to avoid match multiple semicolon?

regex

logstash