没有检查点位置的 Spark Streaming 直接方法

Spark Streaming direct approach without Check point location

当我们使用 Spark Streaming Direct 方法且未指定 check point location 时,偏移量将存储在哪里以及如何存储?

使用检查点位置和不指定任何检查点位置真的有区别吗?

如果我不指定检查点位置,是否会丢失任何数据?

如果你不检查点,你将无法恢复,以防你的驱动程序崩溃。此外,Kafka 偏移量不会被检查点,因为没有检查点,您需要自己手动存储它们。

Is there really any difference between using check point location and without specifying any check point location?

这句话没有多大意义。如果您不提供检查点目录,则不会有检查点,如果您提供了,则不会有。要达到恰好一次语义(如果需要),您需要手动存储偏移量。