Java 正则表达式。不包括定界符的组

Java Regex. group excluding delimiters

我正在尝试使用正则表达式拆分我的字符串。它甚至应该包括每个定界符前后的零长度匹配。例如,如果定界符是 ^ 而我的字符串是 ^^^ 我希望得到 4 个零长度组。 我不能只使用 regex = "([^\^]*)" 因为它会在分隔符之间的每个 true 匹配之后包含额外的零长度匹配。 所以我决定在行首或定界符之后使用非定界符。它在 https://regex101.com/ 上运行完美(抱歉,我无法在此网站上找到共享选项来共享我的示例) 但在 Intellij IDEa 中它会跳过一个匹配。

所以,现在我的代码是:

final String regex = "(^|\^)([^\^]*)";
final String string = "^^^^";

final Pattern pattern = Pattern.compile(regex, Pattern.MULTILINE);
final Matcher matcher = pattern.matcher(string);

while (matcher.find()) 
    System.out.println("[" + matcher.start(2) + "-" + matcher.end(2) + "]: \"" + matcher.group(2) + "\"");

并且我希望有 5 个空字符串匹配。但我只有 4:

[0-0]: ""
[2-2]: ""
[3-3]: ""
[4-4]: ""

问题是为什么它会跳过 [1-1] 个匹配项,我该如何解决?

您的正则表达式匹配字符串的开头或 ^(将其捕获到第 1 组),然后将 ^ 以外的任何 0+ 个字符匹配到第 2 组。找到第一个匹配项时(字符串的开头),第一组保留一个空字符串(因为它是字符串的开头),第二组也保留一个空字符串(因为第一个字符是 ^[^^]* 可以在不匹配的字符之前匹配一个空字符串。整个匹配为零长度,正则表达式引擎将正则表达式索引移动到下一个位置。因此,在第一次匹配之后,正则表达式索引从字符串的开头移动到第一个^之后的位置。然后,找到第二个匹配,第二个^和它后面的空字符串。因此,第一个^不匹配,它是跳过。

解决方法很简单split一个:

String[] result = string.split("\^", -1);

第二个参数使该方法输出结果数组末尾的所有空匹配项。

看到一个Java demo:

String str = "^^^^";
String[] result = str.split("\^", -1);
System.out.println("Number of items: " + result.length);
for (String s: result) {
    System.out.println("\"" + s+ "\"");
}

输出:

Number of items: 5
""
""
""
""
""