ambari 集群 + ambari 代理与 ambari 服务器之间的连接不良

ambari cluster + poor connection between ambari-agent to ambari server

当 ambari 版本为 2 时,我们有一个带有 872 个数据节点机器的 ambari 集群。6.x

我们现在遇到了一些网络问题,

经过长时间的调查,我们发现,在某些机器上运行的 ambari 代理无法与 ambari 服务器正常通信

因此我们从 ambari 仪表板得到一些奇怪的行为,如 5 个死数据节点,同时确保数据节点机器是健康的

是否可以在 ambari 代理配置中提供更多的容忍值,以便 ambari 代理到 ambari 服务器之间的 ack 将在更短的时间之后以忽略网络问题?

ambari 代理到 ambari 服务器之间的超时或时间连接之类的事情

您可以在 ambari-agents 中为服务任务配置 http 超时,http 超时

https://github.com/apache/ambari/blob/trunk/ambari-agent/conf/unix/ambari-agent.ini

有一个 HTTP 超时部分,您可以根据您的网络吞吐量对其进行配置。

文件应该在 /etc/ambari-agent/ambari.properties

首先,您需要了解Data Node显示为Dead的问题的根本原因。

  1. Ambari 代理在每个节点上运行。它负责发送 指标和心跳到 Ambari 服务器,然后发布到 你的 Ambari 网站 UI.
  2. 名称节点等待 10 分钟,直到它声明数据节点已死亡并复制 块到其他数据节点。
  3. 如果显示数据节点已死,请检查 Ambari 代理状态 具体节点运行-service ambari-agent status。同时,您可以检查工作节点中的 ambari-agent.log 以检查 Ambari 代理停止工作的原因。