如果事先向 kafka 发送一些消息,则 spark streaming 无法从 kafka 接收数据
spark streaming cannot receive data from kafka if send some message to kafka beforehand
我先生成一些消息,这些消息由 kafka 的代理保存在磁盘上。然后我启动spark streaming程序来处理这些数据,但是我在spark streaming中接收不到任何东西。并且没有任何错误日志。
但是,如果我在spark streaming程序运行时产生消息,它可以接收数据。
spark streaming只能接收kafka的实时数据吗?
要控制在新消费者流开始时消耗哪些数据的行为,您应该提供 auto.offset.reset
作为用于创建 kafka 流的属性的一部分。
auto.offset.reset
可以取以下值:
- earliest => kafka 主题将从可用的最早偏移量开始消费
- latest => 将使用 kafka 主题,从当前最新偏移量开始
另请注意,根据您使用的 kafka 消费者模型(基于接收或直接),重新启动的 Spark Streaming 作业的行为会有所不同。
我先生成一些消息,这些消息由 kafka 的代理保存在磁盘上。然后我启动spark streaming程序来处理这些数据,但是我在spark streaming中接收不到任何东西。并且没有任何错误日志。
但是,如果我在spark streaming程序运行时产生消息,它可以接收数据。
spark streaming只能接收kafka的实时数据吗?
要控制在新消费者流开始时消耗哪些数据的行为,您应该提供 auto.offset.reset
作为用于创建 kafka 流的属性的一部分。
auto.offset.reset
可以取以下值:
- earliest => kafka 主题将从可用的最早偏移量开始消费
- latest => 将使用 kafka 主题,从当前最新偏移量开始
另请注意,根据您使用的 kafka 消费者模型(基于接收或直接),重新启动的 Spark Streaming 作业的行为会有所不同。