Yarn 上的 Spark Streaming 中的 Beam GroupByKey

Beam GroupByKey in Spark Streaming on Yarn

我目前正在尝试 运行 在 spark 运行ner 上使用窗口和 groupbykey 传输管道。

在本地,它完全可以工作,

但在 yarn 模式下,它似乎根本不会在 GroupByKey.create() 之后触发窗格(没有最终的 hbase 突变)。

分组前的所有ParDos成功记录消息(从kafka获取)。

带默认触发器的窗口化策略:

Window.<String>into(FixedWindows.of(Duration.standardMinutes(WINDOW_SIZE_MIN)))

我也试过在处理时间触发。

是否有人对 spark 运行ner 2.0.0 中当前对此的支持有任何见解?

目前 2.0.0 中存在一个错误,在集群模式下 Spark runner 中基于水印的触发器导致它们永远不会触发。它应该在 2.0.1 https://issues.apache.org/jira/browse/BEAM-2359

中修复