Kafka:分布式进程和存储
Kafka : distribute process and storage
我正在寻找使用 kafka 分发治疗的解决方案。
我必须对数百万个独立条目进行一些计算。
所以我在 3 个不同的虚拟机上安装了 3 个 kafka 代理,并开始使用 3 个不同的线程数据生成 3 个分区的主题。当时的想法是使用同一消费者组中的 3 个消费者来消费这些分区,并将结果存储在另一个主题中以供其他进程使用。
遗憾的是,它最终只将所有内容存储在一个分区上,因此只存储在一个虚拟机上。我需要分配存储和处理...
是否可以完全并行地为不同主题生产数据?
如果我可以让 1 个生产者每 X 分钟向每个分区发送大约相同数量的数据,那就更好了。
我正在使用 java kafka-clients 0.10.2.0 和 kafka_2.11-0.10.2.0 经纪人。
谢谢
数据按键分区。因此,如果您所有的记录都具有相同的键,它们将全部进入相同的分区。
您可以在生产者上明确指定要写入的分区,或者使用 null
-keys 来随机分配。
我正在寻找使用 kafka 分发治疗的解决方案。 我必须对数百万个独立条目进行一些计算。 所以我在 3 个不同的虚拟机上安装了 3 个 kafka 代理,并开始使用 3 个不同的线程数据生成 3 个分区的主题。当时的想法是使用同一消费者组中的 3 个消费者来消费这些分区,并将结果存储在另一个主题中以供其他进程使用。 遗憾的是,它最终只将所有内容存储在一个分区上,因此只存储在一个虚拟机上。我需要分配存储和处理...
是否可以完全并行地为不同主题生产数据? 如果我可以让 1 个生产者每 X 分钟向每个分区发送大约相同数量的数据,那就更好了。
我正在使用 java kafka-clients 0.10.2.0 和 kafka_2.11-0.10.2.0 经纪人。
谢谢
数据按键分区。因此,如果您所有的记录都具有相同的键,它们将全部进入相同的分区。
您可以在生产者上明确指定要写入的分区,或者使用 null
-keys 来随机分配。