zookeeper和kafka在hadoop 2.6集群中放在哪里

Where does zookeeper and Kafka fit in hadoop 2.6 cluster

Hadoop 2.6 使用 Yarn 作为下一代 map reduce，也是集群管理器。我们还需要使用 zookeeper 和 hadoop 2.6 来管理集群服务吗？我们如何设置动物园管理员。

如何为 hadoop 集群安装 Kafka 连接。 kafka将数据发送到hadoop文件系统的消费者和生产者是什么。

它们都适合什么地方。

我已经设置了一个 hadoop 2.6 单节点集群。接下来，我的理解是让 zookeeper 和 Kafka 将数据流式传输到 hadoop 文件系统。而且我不知道如何将 kafka 用于 hadoop 或其 api.

Kafka 使用 producer/consumer 的概念，其中生产者写入主题，消费者使用主题中的数据。每个消费者都可以使用该主题的任何可用分区中的数据。

主题的消费者也将自己注册到ZooKeeper中，以便相互协调并平衡数据的消耗。

消费者跟踪他们在每个分区中消费的最大偏移量。如果 offsets.storage=zookeeper，则此值存储在 ZooKeeper 目录中。该值存储在 ZooKeeper 目录中。 /consumers/[group_id]/offsets/[topic]/[broker_id-partition_id] --> offset_counter_value（（持久节点）。参考kafka documentation获取更多关于使用Kafka 中的动物园管理员

Zookeeper 是分布式系统的协调框架。 Zookeeper 用于协调 HDFS 和 Yarn 高可用性中的状态，Hbase 主服务器和区域服务器之间的协调等。 Kafka 与 Apache Storm、Apache HBase 和 Apache Spark 结合使用，用于流数据的实时分析和渲染。常见用例包括：

流处理。
网站Activity跟踪
指标收集和监控
日志聚合

通常我们使用 Kafka 和 Storm。 Storm 需要一个 zookeeper 集群来协调 nimbus 和 supervisor。 Kafka 需要 zookeeper 来存储有关集群状态和消费者偏移量的信息。

基本上 zookeeper 提供了一个高度可用的文件系统，其中 users/application 可以 read/write 小数据。此数据可以是与通信或交易相关的内容。由于文件系统具有高可用性，因此通信将始终是完整的，不会进入部分或未知状态。 Zookeeper 集群最多可以承受一定数量的故障，具体取决于分区的数量（比如 N），它可以容忍 N-1 次故障。更多详情，您可以参考以下网址1 2 3

zookeeper和kafka在hadoop 2.6集群中放在哪里

Where does zookeeper and Kafka fit in hadoop 2.6 cluster

hadoop

apache-kafka

apache-zookeeper