Spark SQL:使用 Kafka subscribepattern 选项的结构流
Spark SQL : Structure Streaming with Kafka subscribepattern option
我正在尝试使用 Kafka 进行 Spark SQL 结构流式传输。我正在为 kafka 选项寻找这个强制选项 subscribePattern[Java regex string] 。显然只有 3 个值是可能的:"assign, "subscribe" 或 "subscribePattern"
当我用谷歌搜索这个选项时,最有用的信息如下:
https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-streaming/spark-streaming-kafka-ConsumerStrategy.html
谁能用外行术语告诉我这 3 个选项中最明显的区别? Spark SQL
会反映出哪些不同的行为
我对Spark不熟悉,但是对于Kafka消费者来说,有3种选择:
- assign:手动分配主题分区(即,您可以进行任何您想要的分区分配)。这禁用了消费者组管理,因此,如果您有多个消费者并且想要平衡负载需要自己注意不要分配两次分区。
- 订阅:指定一组你想阅读的主题。消费者组管理将实际分配分区(即,如果您在一个组中有多个消费者,分区将分布在组内的所有消费者)
- pattern:类似于(2),但是您指定一个正则表达式并订阅与正则表达式匹配的所有主题
我正在尝试使用 Kafka 进行 Spark SQL 结构流式传输。我正在为 kafka 选项寻找这个强制选项 subscribePattern[Java regex string] 。显然只有 3 个值是可能的:"assign, "subscribe" 或 "subscribePattern"
当我用谷歌搜索这个选项时,最有用的信息如下: https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-streaming/spark-streaming-kafka-ConsumerStrategy.html
谁能用外行术语告诉我这 3 个选项中最明显的区别? Spark SQL
会反映出哪些不同的行为我对Spark不熟悉,但是对于Kafka消费者来说,有3种选择:
- assign:手动分配主题分区(即,您可以进行任何您想要的分区分配)。这禁用了消费者组管理,因此,如果您有多个消费者并且想要平衡负载需要自己注意不要分配两次分区。
- 订阅:指定一组你想阅读的主题。消费者组管理将实际分配分区(即,如果您在一个组中有多个消费者,分区将分布在组内的所有消费者)
- pattern:类似于(2),但是您指定一个正则表达式并订阅与正则表达式匹配的所有主题