无论顺序如何,在两个或多个单词之间匹配一个字符串

Match a string between two or more words regardless of order

我需要一个不分顺序匹配单词的正则表达式。例如,这些行应与标记范围匹配,

A longword1 B longword2 C
  ^-------------------^

A longword2 B longword1 C
  ^-------------------^

而这些不应该:

A longword1 B longword1 C
A longword2 B longword2 C
A longword1 B
A longword2 C

(A、B、C是填充词,基本上可以是任何文本)

可以只使用交替,例如:\b((longword1).*?(longword2)|(longword2).*?(longword2))\b。但是正则表达式会按阶乘增长,即三个单词需要 3!交替。也可以使用子程序,例如\b((?'A'longword1).*?(?'B'longword2')|(?P>B).*?(?P>A))\b。虽然更短,但我仍然需要包括它的所有排列。

现在我已经阅读了 this post and this other one,但接受的答案并不能完全解决我的问题。使用 \b(?=.*longword1)(?=.*longword2).*\b 将匹配整行而不是我显示的范围。

我明白了,如果我根据单词列表检查句子会容易得多。但是我当前的用例阻止了它的实现;我只能使用正则表达式。

这里有一些链接可以证明我的意思:

预期:

不正确:

有没有更简单的正则表达式来解决这个问题?

您可以使用反向引用 + 子例程:

\b(longword1|longword2)\b.*?\b(?!\b)(?1)\b

将其扩展为三个备选方案:

\b(longword1|longword2|longword3)\b.*?\b(?!\b)((?1))\b.*?\b(?!(?:|)\b)(?1)\b

也见regex demo and this regex demo。因此,单词列表将在第 1 组中,您只需要在后续子例程之前添加反向引用。

详情

  • \b(longword1|longword2)\b - 一个完整的单词,longword1longword2
  • .*? - 除换行字符外的任何 0 个或多个字符,尽可能少
  • \b - 单词边界
  • (?!\b) - 组 1 中不能有相同的文本后跟单词边界
  • (?1) - 与组 1
  • 中相同模式匹配的子例程
  • \b - 单词边界