Pyspark 3.1.1 直接使用 kafka 进行流式传输?
Pyspark 3.1.1 direct streaming with kafka?
Pyspark 2.4.7 包含为 kafka 主题创建直接流侦听器的功能 (documentation)
但是,pyspark 的 3.1.1(最新)版本没有此功能。 kafka 直接流式传输的 latest documentation 不再包含 python 示例。
我的问题是如何在 kafka 和 pyspark 3.1.1 中使用直接流式传输(不是结构化流式传输)?
kafka 0.8 支持从 Spark 2.3.0 开始被弃用。
spark-streaming-kafka-0-8 支持 Scala,Java,Python 但 spark-streaming-kafka-0-10 不支持 Python。
请参考以下link
https://spark.apache.org/docs/2.4.7/streaming-kafka-integration.html
Pyspark 2.4.7 包含为 kafka 主题创建直接流侦听器的功能 (documentation)
但是,pyspark 的 3.1.1(最新)版本没有此功能。 kafka 直接流式传输的 latest documentation 不再包含 python 示例。
我的问题是如何在 kafka 和 pyspark 3.1.1 中使用直接流式传输(不是结构化流式传输)?
kafka 0.8 支持从 Spark 2.3.0 开始被弃用。
spark-streaming-kafka-0-8 支持 Scala,Java,Python 但 spark-streaming-kafka-0-10 不支持 Python。
请参考以下link
https://spark.apache.org/docs/2.4.7/streaming-kafka-integration.html