Java 正则表达式。不包括定界符的组

Question

我正在尝试使用正则表达式拆分我的字符串。它甚至应该包括每个定界符前后的零长度匹配。例如，如果定界符是 ^ 而我的字符串是 ^^^ 我希望得到 4 个零长度组。我不能只使用 regex = "([^\^]*)" 因为它会在分隔符之间的每个 true 匹配之后包含额外的零长度匹配。所以我决定在行首或定界符之后使用非定界符。它在 https://regex101.com/ 上运行完美（抱歉，我无法在此网站上找到共享选项来共享我的示例） 但在 Intellij IDEa 中它会跳过一个匹配。

所以，现在我的代码是：

final String regex = "(^|\^)([^\^]*)";
final String string = "^^^^";

final Pattern pattern = Pattern.compile(regex, Pattern.MULTILINE);
final Matcher matcher = pattern.matcher(string);

while (matcher.find()) 
    System.out.println("[" + matcher.start(2) + "-" + matcher.end(2) + "]: \"" + matcher.group(2) + "\"");

并且我希望有 5 个空字符串匹配。但我只有 4:

[0-0]: ""
[2-2]: ""
[3-3]: ""
[4-4]: ""

问题是为什么它会跳过 [1-1] 个匹配项，我该如何解决？

Answer 1

您的正则表达式匹配字符串的开头或 ^（将其捕获到第 1 组），然后将 ^ 以外的任何 0+ 个字符匹配到第 2 组。找到第一个匹配项时（字符串的开头），第一组保留一个空字符串（因为它是字符串的开头），第二组也保留一个空字符串（因为第一个字符是 ^ 和 [^^]* 可以在不匹配的字符之前匹配一个空字符串。整个匹配为零长度，正则表达式引擎将正则表达式索引移动到下一个位置。因此，在第一次匹配之后，正则表达式索引从字符串的开头移动到第一个^之后的位置。然后，找到第二个匹配，第二个^和它后面的空字符串。因此，第一个^不匹配，它是跳过。

解决方法很简单split一个：

String[] result = string.split("\^", -1);

第二个参数使该方法输出结果数组末尾的所有空匹配项。

看到一个Java demo:

String str = "^^^^";
String[] result = str.split("\^", -1);
System.out.println("Number of items: " + result.length);
for (String s: result) {
    System.out.println("\"" + s+ "\"");
}

输出：

Number of items: 5
""
""
""
""
""

Java 正则表达式。不包括定界符的组

Java Regex. group excluding delimiters

java

regex

regex-group