正则表达式：避免组 - url 域名

Question

我为 re 模块编写了这个正则表达式，据我所知，它按预期工作：

^(https?://)([\w\.-]+)[\./]*(?(1)(domain-name.com))

运行针对 url 列表，它仅匹配包含 domain-name.com 的那些。但我不明白为什么:

^(https?://)([\w\.-]+)[\./]*(?(1)(!(domain-name.com)))

不return所有其他网址。实际上它永远不会匹配任何东西。

谢谢

Answer 1

您需要对 ?! 使用否定前瞻而不是 !

^(https?://)([\w\.-]+)[\./]*(?(1)(?!(domain-name.com)))

Answer 2

要匹配 domain-name.com 个域，请使用以下内容。

^https?://(?:\w+(?:-\w+)*\.)*domain-name\.com(?=$|/)

要匹配非 domain-name.com 域，请使用以下内容。

^https?://(?:\w+(?:-\w+)*\.)*(?!domain-name\.com)[\w-]+\.[\w-]+(?=$|/)

这与第一个模式相同，只是它使用 (?!domain-name\.com)[\w-]+\.[\w-]+。这匹配任何不匹配 domain-name.com 字面意思

的域

regex : avoid group - url domain name