zookeeper和kafka在hadoop 2.6集群中放在哪里

Where does zookeeper and Kafka fit in hadoop 2.6 cluster

Hadoop 2.6 使用 Yarn 作为下一代 map reduce,也是集群管理器。我们还需要使用 zookeeper 和 hadoop 2.6 来管理集群服务吗?我们如何设置动物园管理员。

如何为 hadoop 集群安装 Kafka 连接。 kafka将数据发送到hadoop文件系统的消费者和生产者是什么。

它们都适合什么地方。

我已经设置了一个 hadoop 2.6 单节点集群。接下来,我的理解是让 zookeeper 和 Kafka 将数据流式传输到 hadoop 文件系统。 而且我不知道如何将 kafka 用于 hadoop 或其 api.

Kafka 使用 producer/consumer 的概念,其中生产者写入主题,消费者使用主题中的数据。每个消费者都可以使用该主题的任何可用分区中的数据。

主题的消费者也将自己注册到ZooKeeper中,以便相互协调并平衡数据的消耗。

消费者跟踪他们在每个分区中消费的最大偏移量。如果 offsets.storage=zookeeper,则此值存储在 ZooKeeper 目录中。该值存储在 ZooKeeper 目录中。 /consumers/[group_id]/offsets/[topic]/[broker_id-partition_id] --> offset_counter_value((持久节点)。参考kafka documentation获取更多关于使用Kafka 中的动物园管理员

Zookeeper 是分布式系统的协调框架。 Zookeeper 用于协调 HDFS 和 Yarn 高可用性中的状态,Hbase 主服务器和区域服务器之间的协调等。 Kafka 与 Apache Storm、Apache HBase 和 Apache Spark 结合使用,用于流数据的实时分析和渲染。 常见用例包括:

  1. 流处理。
  2. 网站Activity跟踪
  3. 指标收集和监控
  4. 日志聚合

通常我们使用 Kafka 和 Storm。 Storm 需要一个 zookeeper 集群来协调 nimbus 和 supervisor。 Kafka 需要 zookeeper 来存储有关集群状态和消费者偏移量的信息。

基本上 zookeeper 提供了一个高度可用的文件系统,其中 users/application 可以 read/write 小数据。此数据可以是与通信或交易相关的内容。由于文件系统具有高可用性,因此通信将始终是完整的,不会进入部分或未知状态。 Zookeeper 集群最多可以承受一定数量的故障,具体取决于分区的数量(比如 N),它可以容忍 N-1 次故障。 更多详情,您可以参考以下网址1 2 3