Spark 1.3.1 中 Kafka 直接方法的偏移量
Offsets for Kafka Direct Approach in Spark 1.3.1
我正在 Spark 1.3.1 中实现用于 kafka 流式处理的 'direct' 方法
https://spark.apache.org/docs/1.3.1/streaming-kafka-integration.html
据我了解,可以通过两种方式设置 'auto.offset.reset':"smallest" 和 "largest"。我正在观察的行为(让我知道这是否是预期的)是 "largest" 将重新开始并接收任何新的传入数据 - 而 "smallest" 将从 0 开始并读取到结束,但不会收到任何新的传入数据。显然,最好能够从头开始并接收新的传入数据。我确实看到了(在文档中)对每个批次消耗的偏移量的访问,但我不确定这在这里有什么帮助。谢谢
看来我错了 - 'smallest' 实际上确实从末尾继续读取 new/incoming 数据。
我正在 Spark 1.3.1 中实现用于 kafka 流式处理的 'direct' 方法 https://spark.apache.org/docs/1.3.1/streaming-kafka-integration.html 据我了解,可以通过两种方式设置 'auto.offset.reset':"smallest" 和 "largest"。我正在观察的行为(让我知道这是否是预期的)是 "largest" 将重新开始并接收任何新的传入数据 - 而 "smallest" 将从 0 开始并读取到结束,但不会收到任何新的传入数据。显然,最好能够从头开始并接收新的传入数据。我确实看到了(在文档中)对每个批次消耗的偏移量的访问,但我不确定这在这里有什么帮助。谢谢
看来我错了 - 'smallest' 实际上确实从末尾继续读取 new/incoming 数据。