无论顺序如何,在两个或多个单词之间匹配一个字符串
Match a string between two or more words regardless of order
我需要一个不分顺序匹配单词的正则表达式。例如,这些行应与标记范围匹配,
A longword1 B longword2 C
^-------------------^
A longword2 B longword1 C
^-------------------^
而这些不应该:
A longword1 B longword1 C
A longword2 B longword2 C
A longword1 B
A longword2 C
(A、B、C是填充词,基本上可以是任何文本)
可以只使用交替,例如:\b((longword1).*?(longword2)|(longword2).*?(longword2))\b
。但是正则表达式会按阶乘增长,即三个单词需要 3!交替。也可以使用子程序,例如\b((?'A'longword1).*?(?'B'longword2')|(?P>B).*?(?P>A))\b
。虽然更短,但我仍然需要包括它的所有排列。
现在我已经阅读了 this post and this other one,但接受的答案并不能完全解决我的问题。使用 \b(?=.*longword1)(?=.*longword2).*\b
将匹配整行而不是我显示的范围。
我明白了,如果我根据单词列表检查句子会容易得多。但是我当前的用例阻止了它的实现;我只能使用正则表达式。
这里有一些链接可以证明我的意思:
预期:
- 使用候补:https://regexr.com/5b6pv
- 使用子程序:https://regexr.com/5b6ss
不正确:
- 使用正面前瞻(如链接):https://regexr.com/5b6q2
有没有更简单的正则表达式来解决这个问题?
您可以使用反向引用 + 子例程:
\b(longword1|longword2)\b.*?\b(?!\b)(?1)\b
将其扩展为三个备选方案:
\b(longword1|longword2|longword3)\b.*?\b(?!\b)((?1))\b.*?\b(?!(?:|)\b)(?1)\b
也见regex demo and this regex demo。因此,单词列表将在第 1 组中,您只需要在后续子例程之前添加反向引用。
详情
\b(longword1|longword2)\b
- 一个完整的单词,longword1
或 longword2
.*?
- 除换行字符外的任何 0 个或多个字符,尽可能少
\b
- 单词边界
(?!\b)
- 组 1 中不能有相同的文本后跟单词边界
(?1)
- 与组 1 中相同模式匹配的子例程
\b
- 单词边界
我需要一个不分顺序匹配单词的正则表达式。例如,这些行应与标记范围匹配,
A longword1 B longword2 C
^-------------------^
A longword2 B longword1 C
^-------------------^
而这些不应该:
A longword1 B longword1 C
A longword2 B longword2 C
A longword1 B
A longword2 C
(A、B、C是填充词,基本上可以是任何文本)
可以只使用交替,例如:\b((longword1).*?(longword2)|(longword2).*?(longword2))\b
。但是正则表达式会按阶乘增长,即三个单词需要 3!交替。也可以使用子程序,例如\b((?'A'longword1).*?(?'B'longword2')|(?P>B).*?(?P>A))\b
。虽然更短,但我仍然需要包括它的所有排列。
现在我已经阅读了 this post and this other one,但接受的答案并不能完全解决我的问题。使用 \b(?=.*longword1)(?=.*longword2).*\b
将匹配整行而不是我显示的范围。
我明白了,如果我根据单词列表检查句子会容易得多。但是我当前的用例阻止了它的实现;我只能使用正则表达式。
这里有一些链接可以证明我的意思:
预期:
- 使用候补:https://regexr.com/5b6pv
- 使用子程序:https://regexr.com/5b6ss
不正确:
- 使用正面前瞻(如链接):https://regexr.com/5b6q2
有没有更简单的正则表达式来解决这个问题?
您可以使用反向引用 + 子例程:
\b(longword1|longword2)\b.*?\b(?!\b)(?1)\b
将其扩展为三个备选方案:
\b(longword1|longword2|longword3)\b.*?\b(?!\b)((?1))\b.*?\b(?!(?:|)\b)(?1)\b
也见regex demo and this regex demo。因此,单词列表将在第 1 组中,您只需要在后续子例程之前添加反向引用。
详情
\b(longword1|longword2)\b
- 一个完整的单词,longword1
或longword2
.*?
- 除换行字符外的任何 0 个或多个字符,尽可能少\b
- 单词边界(?!\b)
- 组 1 中不能有相同的文本后跟单词边界(?1)
- 与组 1 中相同模式匹配的子例程
\b
- 单词边界