如何创建正则表达式匹配流?
How do I create a Stream of regex matches?
我正在尝试解析标准输入并提取与特定模式匹配的每个字符串,计算每个匹配项的出现次数,然后按字母顺序打印结果。这个问题似乎很适合 Streams API,但我找不到从 Matcher 创建匹配流的简洁方法。
我通过在匹配项上实现迭代器并将其包装到流中来解决这个问题,但结果不是很可读。如何在不引入额外 类?
的情况下创建正则表达式匹配流
public class PatternCounter
{
static private class MatcherIterator implements Iterator<String> {
private final Matcher matcher;
public MatcherIterator(Matcher matcher) {
this.matcher = matcher;
}
public boolean hasNext() {
return matcher.find();
}
public String next() {
return matcher.group(0);
}
}
static public void main(String[] args) throws Throwable {
Pattern pattern = Pattern.compile("[a-zA-Z0-9.!#$%&’*+/=?^_`{|}~-]+@[a-zA-Z0-9-]+(?:\.[a-zA-Z0-9-]+)");
new TreeMap<String, Long>(new BufferedReader(new InputStreamReader(System.in))
.lines().map(line -> {
Matcher matcher = pattern.matcher(line);
return StreamSupport.stream(
Spliterators.spliteratorUnknownSize(new MatcherIterator(matcher), Spliterator.ORDERED), false);
}).reduce(Stream.empty(), Stream::concat).collect(groupingBy(o -> o, counting()))
).forEach((k, v) -> {
System.out.printf("%s\t%s\n",k,v);
});
}
}
好吧,在 Java 8 中,有 Pattern.splitAsStream
将提供由 delimiter 模式拆分的项目流,但不幸的是没有支持方法获取 匹配项 .
的流
如果您要实现这样的 Stream
,我建议直接实现 Spliterator
而不是实现和包装 Iterator
。您可能更熟悉 Iterator
但实现简单的 Spliterator
是直截了当的:
final class MatchItr extends Spliterators.AbstractSpliterator<String> {
private final Matcher matcher;
MatchItr(Matcher m) {
super(m.regionEnd()-m.regionStart(), ORDERED|NONNULL);
matcher=m;
}
public boolean tryAdvance(Consumer<? super String> action) {
if(!matcher.find()) return false;
action.accept(matcher.group());
return true;
}
}
不过,您可以考虑使用直接循环覆盖 forEachRemaining
。
如果我正确理解了您的尝试,解决方案应该类似于:
Pattern pattern = Pattern.compile(
"[a-zA-Z0-9.!#$%&’*+/=?^_`{|}~-]+@[a-zA-Z0-9-]+(?:\.[a-zA-Z0-9-]+)");
try(BufferedReader br=new BufferedReader(System.console().reader())) {
br.lines()
.flatMap(line -> StreamSupport.stream(new MatchItr(pattern.matcher(line)), false))
.collect(Collectors.groupingBy(o->o, TreeMap::new, Collectors.counting()))
.forEach((k, v) -> System.out.printf("%s\t%s\n",k,v));
}
Java 9提供方法Stream<MatchResult> results()
directly on the Matcher
. But for finding matches within a stream, there’s an even more convenient method on Scanner
。这样,实现就简化为
try(Scanner s = new Scanner(System.console().reader())) {
s.findAll(pattern)
.collect(Collectors.groupingBy(MatchResult::group,TreeMap::new,Collectors.counting()))
.forEach((k, v) -> System.out.printf("%s\t%s\n",k,v));
}
包含 Scanner.findAll
的后向端口,可与 Java 8.
一起使用
离开 Holger 的解决方案,我们可以通过让用户提供 Function<Matcher, String>
手术。我们还可以隐藏 Spliterator
作为实现细节,这样调用者就可以直接使用 Stream
。根据经验,StreamSupport
应该由库代码使用,而不是用户。
public class MatcherStream {
private MatcherStream() {}
public static Stream<String> find(Pattern pattern, CharSequence input) {
return findMatches(pattern, input).map(MatchResult::group);
}
public static Stream<MatchResult> findMatches(
Pattern pattern, CharSequence input) {
Matcher matcher = pattern.matcher(input);
Spliterator<MatchResult> spliterator = new Spliterators.AbstractSpliterator<MatchResult>(
Long.MAX_VALUE, Spliterator.ORDERED|Spliterator.NONNULL) {
@Override
public boolean tryAdvance(Consumer<? super MatchResult> action) {
if(!matcher.find()) return false;
action.accept(matcher.toMatchResult());
return true;
}};
return StreamSupport.stream(spliterator, false);
}
}
然后您可以像这样使用它:
MatcherStream.find(Pattern.compile("\w+"), "foo bar baz").forEach(System.out::println);
或针对您的特定任务(再次向 Holger 借用):
try(BufferedReader br = new BufferedReader(System.console().reader())) {
br.lines()
.flatMap(line -> MatcherStream.find(pattern, line))
.collect(Collectors.groupingBy(o->o, TreeMap::new, Collectors.counting()))
.forEach((k, v) -> System.out.printf("%s\t%s\n", k, v));
}
如果您想使用 Scanner
和使用 findWithinHorizon
方法的正则表达式,您还可以将正则表达式转换为字符串流。
这里我们使用流生成器,它在常规 while
循环中使用起来非常方便。
这是一个例子:
private Stream<String> extractRulesFrom(String text, Pattern pattern, int group) {
Stream.Builder<String> builder = Stream.builder();
try(Scanner scanner = new Scanner(text)) {
while (scanner.findWithinHorizon(pattern, 0) != null) {
builder.accept(scanner.match().group(group));
}
}
return builder.build();
}
我正在尝试解析标准输入并提取与特定模式匹配的每个字符串,计算每个匹配项的出现次数,然后按字母顺序打印结果。这个问题似乎很适合 Streams API,但我找不到从 Matcher 创建匹配流的简洁方法。
我通过在匹配项上实现迭代器并将其包装到流中来解决这个问题,但结果不是很可读。如何在不引入额外 类?
的情况下创建正则表达式匹配流public class PatternCounter
{
static private class MatcherIterator implements Iterator<String> {
private final Matcher matcher;
public MatcherIterator(Matcher matcher) {
this.matcher = matcher;
}
public boolean hasNext() {
return matcher.find();
}
public String next() {
return matcher.group(0);
}
}
static public void main(String[] args) throws Throwable {
Pattern pattern = Pattern.compile("[a-zA-Z0-9.!#$%&’*+/=?^_`{|}~-]+@[a-zA-Z0-9-]+(?:\.[a-zA-Z0-9-]+)");
new TreeMap<String, Long>(new BufferedReader(new InputStreamReader(System.in))
.lines().map(line -> {
Matcher matcher = pattern.matcher(line);
return StreamSupport.stream(
Spliterators.spliteratorUnknownSize(new MatcherIterator(matcher), Spliterator.ORDERED), false);
}).reduce(Stream.empty(), Stream::concat).collect(groupingBy(o -> o, counting()))
).forEach((k, v) -> {
System.out.printf("%s\t%s\n",k,v);
});
}
}
好吧,在 Java 8 中,有 Pattern.splitAsStream
将提供由 delimiter 模式拆分的项目流,但不幸的是没有支持方法获取 匹配项 .
如果您要实现这样的 Stream
,我建议直接实现 Spliterator
而不是实现和包装 Iterator
。您可能更熟悉 Iterator
但实现简单的 Spliterator
是直截了当的:
final class MatchItr extends Spliterators.AbstractSpliterator<String> {
private final Matcher matcher;
MatchItr(Matcher m) {
super(m.regionEnd()-m.regionStart(), ORDERED|NONNULL);
matcher=m;
}
public boolean tryAdvance(Consumer<? super String> action) {
if(!matcher.find()) return false;
action.accept(matcher.group());
return true;
}
}
不过,您可以考虑使用直接循环覆盖 forEachRemaining
。
如果我正确理解了您的尝试,解决方案应该类似于:
Pattern pattern = Pattern.compile(
"[a-zA-Z0-9.!#$%&’*+/=?^_`{|}~-]+@[a-zA-Z0-9-]+(?:\.[a-zA-Z0-9-]+)");
try(BufferedReader br=new BufferedReader(System.console().reader())) {
br.lines()
.flatMap(line -> StreamSupport.stream(new MatchItr(pattern.matcher(line)), false))
.collect(Collectors.groupingBy(o->o, TreeMap::new, Collectors.counting()))
.forEach((k, v) -> System.out.printf("%s\t%s\n",k,v));
}
Java 9提供方法Stream<MatchResult> results()
directly on the Matcher
. But for finding matches within a stream, there’s an even more convenient method on Scanner
。这样,实现就简化为
try(Scanner s = new Scanner(System.console().reader())) {
s.findAll(pattern)
.collect(Collectors.groupingBy(MatchResult::group,TreeMap::new,Collectors.counting()))
.forEach((k, v) -> System.out.printf("%s\t%s\n",k,v));
}
Scanner.findAll
的后向端口,可与 Java 8.
离开 Holger 的解决方案,我们可以通过让用户提供 Function<Matcher, String>
手术。我们还可以隐藏 Spliterator
作为实现细节,这样调用者就可以直接使用 Stream
。根据经验,StreamSupport
应该由库代码使用,而不是用户。
public class MatcherStream {
private MatcherStream() {}
public static Stream<String> find(Pattern pattern, CharSequence input) {
return findMatches(pattern, input).map(MatchResult::group);
}
public static Stream<MatchResult> findMatches(
Pattern pattern, CharSequence input) {
Matcher matcher = pattern.matcher(input);
Spliterator<MatchResult> spliterator = new Spliterators.AbstractSpliterator<MatchResult>(
Long.MAX_VALUE, Spliterator.ORDERED|Spliterator.NONNULL) {
@Override
public boolean tryAdvance(Consumer<? super MatchResult> action) {
if(!matcher.find()) return false;
action.accept(matcher.toMatchResult());
return true;
}};
return StreamSupport.stream(spliterator, false);
}
}
然后您可以像这样使用它:
MatcherStream.find(Pattern.compile("\w+"), "foo bar baz").forEach(System.out::println);
或针对您的特定任务(再次向 Holger 借用):
try(BufferedReader br = new BufferedReader(System.console().reader())) {
br.lines()
.flatMap(line -> MatcherStream.find(pattern, line))
.collect(Collectors.groupingBy(o->o, TreeMap::new, Collectors.counting()))
.forEach((k, v) -> System.out.printf("%s\t%s\n", k, v));
}
如果您想使用 Scanner
和使用 findWithinHorizon
方法的正则表达式,您还可以将正则表达式转换为字符串流。
这里我们使用流生成器,它在常规 while
循环中使用起来非常方便。
这是一个例子:
private Stream<String> extractRulesFrom(String text, Pattern pattern, int group) {
Stream.Builder<String> builder = Stream.builder();
try(Scanner scanner = new Scanner(text)) {
while (scanner.findWithinHorizon(pattern, 0) != null) {
builder.accept(scanner.match().group(group));
}
}
return builder.build();
}