在 Apache Spark 中滑动 Window 没有水印?

Sliding Window without watermark in Apache Spark?

考虑到我有一个简单的聚合,其中定义了 window,没有任何水印。

df
.groupBy(window(col("time"), "30 minutes","10 minutes").as("time"))
.aggr ....

这里因为我们的window是30 minutes,滑动区间10 minutes

  1. 是的,它将每 10 分钟(滑动间隔)滑动/计算一次,提供 30 分钟的重叠 window。您没有定义是使用事件还是摄取时间。如果使用事件时间,则延迟处理、乱序处理以随着时间的推移更新将此类数据包含在更新的windows中。

  2. 根据上一个问题,这与加水印不同。加水印意味着在一段时间后,迟到的数据被丢弃,因此上述效果需要时间考虑来应对。就是说一些比较老的windows就不更新了