Kafka Streams:不重新分区共同分区数据的地图
Kafka Streams: a map not repartitioning co-partitioned data
我有一个来自类型为 [K3, V] 的基础主题的 KStream。 K3是由三个域组成的密钥,即K3(a,b,c)。然而,主题仅由键字段的子集分区,即 K2 (a,b)。
现在,我想创建一个 KTable 来连接并在我的 PAPI 处理器中使用。我希望这个 KTable 按 K2(a,b) 聚合。聚合只是将值收集到一个集合中。
为此,我必须使用 "map" 函数将我的密钥从 K3 转换为 K2。这将(尝试)通过创建一个新的重新分区的主题来重新分区数据(尽管实际上数据将保留在相同的分区中,因为它也将使用 K2 作为分区键),请参见下面拓扑中的"test-customerStoreName-repartition"。
Sub-topology: 0
Source: KSTREAM-SOURCE-0000000000 (topics: [test-customerz])
--> KSTREAM-MAP-0000000003
Processor: KSTREAM-MAP-0000000003 (stores: [])
--> KSTREAM-FILTER-0000000006
<-- KSTREAM-SOURCE-0000000000
Processor: KSTREAM-FILTER-0000000006 (stores: [])
--> KSTREAM-SINK-0000000005
<-- KSTREAM-MAP-0000000003
Sink: KSTREAM-SINK-0000000005 (topic: test-customerStoreName-repartition)
<-- KSTREAM-FILTER-0000000006
有没有一种方法可以在不通过地图重新分区的情况下进行这种聚合?
使用 DSL,这是不可能的,因为您无法告诉库不需要重新分区。有一个KIP提议加入这样一个特性:https://cwiki.apache.org/confluence/display/KAFKA/KIP-759%3A+Unneeded+repartition+canceling
您需要直接使用处理器 API,因为处理器 API 没有任何自动重新分区。
你也可以“破解”一些东西:在 map()
之后,返回的 KStream
可以转换为 KStreamImpl
类型,然后通过反射你可以设置内部标志 repartitionRequired
到 false
。但这是一个黑客!
我有一个来自类型为 [K3, V] 的基础主题的 KStream。 K3是由三个域组成的密钥,即K3(a,b,c)。然而,主题仅由键字段的子集分区,即 K2 (a,b)。
现在,我想创建一个 KTable 来连接并在我的 PAPI 处理器中使用。我希望这个 KTable 按 K2(a,b) 聚合。聚合只是将值收集到一个集合中。
为此,我必须使用 "map" 函数将我的密钥从 K3 转换为 K2。这将(尝试)通过创建一个新的重新分区的主题来重新分区数据(尽管实际上数据将保留在相同的分区中,因为它也将使用 K2 作为分区键),请参见下面拓扑中的"test-customerStoreName-repartition"。
Sub-topology: 0
Source: KSTREAM-SOURCE-0000000000 (topics: [test-customerz])
--> KSTREAM-MAP-0000000003
Processor: KSTREAM-MAP-0000000003 (stores: [])
--> KSTREAM-FILTER-0000000006
<-- KSTREAM-SOURCE-0000000000
Processor: KSTREAM-FILTER-0000000006 (stores: [])
--> KSTREAM-SINK-0000000005
<-- KSTREAM-MAP-0000000003
Sink: KSTREAM-SINK-0000000005 (topic: test-customerStoreName-repartition)
<-- KSTREAM-FILTER-0000000006
有没有一种方法可以在不通过地图重新分区的情况下进行这种聚合?
使用 DSL,这是不可能的,因为您无法告诉库不需要重新分区。有一个KIP提议加入这样一个特性:https://cwiki.apache.org/confluence/display/KAFKA/KIP-759%3A+Unneeded+repartition+canceling
您需要直接使用处理器 API,因为处理器 API 没有任何自动重新分区。
你也可以“破解”一些东西:在 map()
之后,返回的 KStream
可以转换为 KStreamImpl
类型,然后通过反射你可以设置内部标志 repartitionRequired
到 false
。但这是一个黑客!