Java 正则表达式。不包括定界符的组
Java Regex. group excluding delimiters
我正在尝试使用正则表达式拆分我的字符串。它甚至应该包括每个定界符前后的零长度匹配。例如,如果定界符是 ^
而我的字符串是 ^^^
我希望得到 4 个零长度组。
我不能只使用 regex = "([^\^]*)"
因为它会在分隔符之间的每个 true 匹配之后包含额外的零长度匹配。
所以我决定在行首或定界符之后使用非定界符。它在 https://regex101.com/ 上运行完美(抱歉,我无法在此网站上找到共享选项来共享我的示例) 但在 Intellij IDEa 中它会跳过一个匹配。
所以,现在我的代码是:
final String regex = "(^|\^)([^\^]*)";
final String string = "^^^^";
final Pattern pattern = Pattern.compile(regex, Pattern.MULTILINE);
final Matcher matcher = pattern.matcher(string);
while (matcher.find())
System.out.println("[" + matcher.start(2) + "-" + matcher.end(2) + "]: \"" + matcher.group(2) + "\"");
并且我希望有 5 个空字符串匹配。但我只有 4:
[0-0]: ""
[2-2]: ""
[3-3]: ""
[4-4]: ""
问题是为什么它会跳过 [1-1] 个匹配项,我该如何解决?
您的正则表达式匹配字符串的开头或 ^
(将其捕获到第 1 组),然后将 ^
以外的任何 0+ 个字符匹配到第 2 组。找到第一个匹配项时(字符串的开头),第一组保留一个空字符串(因为它是字符串的开头),第二组也保留一个空字符串(因为第一个字符是 ^
和 [^^]*
可以在不匹配的字符之前匹配一个空字符串。整个匹配为零长度,正则表达式引擎将正则表达式索引移动到下一个位置。因此,在第一次匹配之后,正则表达式索引从字符串的开头移动到第一个^
之后的位置。然后,找到第二个匹配,第二个^
和它后面的空字符串。因此,第一个^
不匹配,它是跳过。
解决方法很简单split
一个:
String[] result = string.split("\^", -1);
第二个参数使该方法输出结果数组末尾的所有空匹配项。
看到一个Java demo:
String str = "^^^^";
String[] result = str.split("\^", -1);
System.out.println("Number of items: " + result.length);
for (String s: result) {
System.out.println("\"" + s+ "\"");
}
输出:
Number of items: 5
""
""
""
""
""
我正在尝试使用正则表达式拆分我的字符串。它甚至应该包括每个定界符前后的零长度匹配。例如,如果定界符是 ^
而我的字符串是 ^^^
我希望得到 4 个零长度组。
我不能只使用 regex = "([^\^]*)"
因为它会在分隔符之间的每个 true 匹配之后包含额外的零长度匹配。
所以我决定在行首或定界符之后使用非定界符。它在 https://regex101.com/ 上运行完美(抱歉,我无法在此网站上找到共享选项来共享我的示例) 但在 Intellij IDEa 中它会跳过一个匹配。
所以,现在我的代码是:
final String regex = "(^|\^)([^\^]*)";
final String string = "^^^^";
final Pattern pattern = Pattern.compile(regex, Pattern.MULTILINE);
final Matcher matcher = pattern.matcher(string);
while (matcher.find())
System.out.println("[" + matcher.start(2) + "-" + matcher.end(2) + "]: \"" + matcher.group(2) + "\"");
并且我希望有 5 个空字符串匹配。但我只有 4:
[0-0]: ""
[2-2]: ""
[3-3]: ""
[4-4]: ""
问题是为什么它会跳过 [1-1] 个匹配项,我该如何解决?
您的正则表达式匹配字符串的开头或 ^
(将其捕获到第 1 组),然后将 ^
以外的任何 0+ 个字符匹配到第 2 组。找到第一个匹配项时(字符串的开头),第一组保留一个空字符串(因为它是字符串的开头),第二组也保留一个空字符串(因为第一个字符是 ^
和 [^^]*
可以在不匹配的字符之前匹配一个空字符串。整个匹配为零长度,正则表达式引擎将正则表达式索引移动到下一个位置。因此,在第一次匹配之后,正则表达式索引从字符串的开头移动到第一个^
之后的位置。然后,找到第二个匹配,第二个^
和它后面的空字符串。因此,第一个^
不匹配,它是跳过。
解决方法很简单split
一个:
String[] result = string.split("\^", -1);
第二个参数使该方法输出结果数组末尾的所有空匹配项。
看到一个Java demo:
String str = "^^^^";
String[] result = str.split("\^", -1);
System.out.println("Number of items: " + result.length);
for (String s: result) {
System.out.println("\"" + s+ "\"");
}
输出:
Number of items: 5
""
""
""
""
""