Spark 1.3.1 中 Kafka 直接方法的偏移量

Offsets for Kafka Direct Approach in Spark 1.3.1

apache-kafka
apache-spark
spark-streaming

我正在 Spark 1.3.1 中实现用于 kafka 流式处理的 'direct' 方法 https://spark.apache.org/docs/1.3.1/streaming-kafka-integration.html 据我了解，可以通过两种方式设置 'auto.offset.reset'："smallest" 和 "largest"。我正在观察的行为（让我知道这是否是预期的）是 "largest" 将重新开始并接收任何新的传入数据 - 而 "smallest" 将从 0 开始并读取到结束，但不会收到任何新的传入数据。显然，最好能够从头开始并接收新的传入数据。我确实看到了（在文档中）对每个批次消耗的偏移量的访问，但我不确定这在这里有什么帮助。谢谢

看来我错了 - 'smallest' 实际上确实从末尾继续读取 new/incoming 数据。

Spark 1.3.1 中 Kafka 直接方法的偏移量

Offsets for Kafka Direct Approach in Spark 1.3.1

apache-kafka

apache-spark

spark-streaming