Spark 结构化流异步批处理阻塞
Spark structured streaming asynchronous batch blocking
我正在使用 Apache Spark 结构化流从 Kafka 读取数据。有时,由于大量写入 IO 操作,我的微批处理时间比指定时间长。我想知道是否有一个选项可以在第一批完成之前开始下一批,但是让第二批被第一批阻止?
我的意思是如果第一个用了7秒,batch设置为5秒,那么在第5秒开始第二个batch。但是,如果第二批完成阻止它,那么它就不会在前一批之前写入(因为要保持正确的消息顺序)。
没有。下一批仅在前一批完成后才开始。我认为你的意思是学期间隔。否则会变得一团糟。
见https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#triggers
我正在使用 Apache Spark 结构化流从 Kafka 读取数据。有时,由于大量写入 IO 操作,我的微批处理时间比指定时间长。我想知道是否有一个选项可以在第一批完成之前开始下一批,但是让第二批被第一批阻止?
我的意思是如果第一个用了7秒,batch设置为5秒,那么在第5秒开始第二个batch。但是,如果第二批完成阻止它,那么它就不会在前一批之前写入(因为要保持正确的消息顺序)。
没有。下一批仅在前一批完成后才开始。我认为你的意思是学期间隔。否则会变得一团糟。
见https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#triggers