在 Apache Spark 中滑动 Window 没有水印?
Sliding Window without watermark in Apache Spark?
考虑到我有一个简单的聚合,其中定义了 window,没有任何水印。
df
.groupBy(window(col("time"), "30 minutes","10 minutes").as("time"))
.aggr ....
这里因为我们的window是30 minutes
,滑动区间10 minutes
- Q1.是不是说10分钟后会滑动?
- Q2.如果是这样,是不是有点像水印?
是的,它将每 10 分钟(滑动间隔)滑动/计算一次,提供 30 分钟的重叠 window。您没有定义是使用事件还是摄取时间。如果使用事件时间,则延迟处理、乱序处理以随着时间的推移更新将此类数据包含在更新的windows中。
根据上一个问题,这与加水印不同。加水印意味着在一段时间后,迟到的数据被丢弃,因此上述效果需要时间考虑来应对。就是说一些比较老的windows就不更新了
考虑到我有一个简单的聚合,其中定义了 window,没有任何水印。
df
.groupBy(window(col("time"), "30 minutes","10 minutes").as("time"))
.aggr ....
这里因为我们的window是30 minutes
,滑动区间10 minutes
- Q1.是不是说10分钟后会滑动?
- Q2.如果是这样,是不是有点像水印?
是的,它将每 10 分钟(滑动间隔)滑动/计算一次,提供 30 分钟的重叠 window。您没有定义是使用事件还是摄取时间。如果使用事件时间,则延迟处理、乱序处理以随着时间的推移更新将此类数据包含在更新的windows中。
根据上一个问题,这与加水印不同。加水印意味着在一段时间后,迟到的数据被丢弃,因此上述效果需要时间考虑来应对。就是说一些比较老的windows就不更新了