GCP 数据流:打印 PCollection 数据

GCP Dataflow : print PCollection data

我是 GCP Dataflow 的新手,只是想了解是否有任何方法可以打印 PCollection 的所有值。

Pipeline p = Pipeline.create(options);
PCollection<String> lines = p.apply("ReadLines", TextIO.read().from(options.getInputFile()));

在这里,我想打印并检查行(PCollection)中所有可用的值

同样的,下面操作后想访问word中的所有值

PCollection<String> words = lines.apply(
            FlatMapElements.into(TypeDescriptors.strings())
                    .via((String line) -> Arrays.asList(line.split(" "))));

您将需要在 ParDo 中处理 PCollection。 See docs here。在 ParDo 中,您可以检查每个元素。