AWS 上的 SAP Vora2.1 间歇性停机
SAP Vora2.1 on AWS intermittently goes down
我已经使用 kops 在 AWS 上安装了 SAP Vora2.1。它是一个具有 1 个主节点和 3 个节点的 4 节点集群。 vsystem-vrep 的持久卷要求使用 AWS-EFS 提供,其他有状态组件使用 AWS-EBS 提供。虽然安装顺利并运行了几天,但在 5 vora pods 之后的 3-4 天后开始出现一些问题,
vora目录
Vora-关系
Vora 时间序列
vora-tx-协调器
vora 磁盘
这些 pods 中的每一个都有 2 个容器,并且都应该启动并且 运行。然而,3-4 天后,其中一个容器自行关闭,尽管 kubernetes 集群已启动并且 运行。我尝试了各种方法来将这些 pods 和 运行 所有必需的容器都放在其中,但它没有出现。
我已经捕获了 vora-disk 的事件作为示例,但所有 pods 都显示相同的轨迹,
Events:
FirstSeen LastSeen Count From SubObjectPath Type Reason Message
--------- -------- ----- ---- ------------- -------- ------ -------
1h 7m 21 kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal spec.containers{disk} Warning Unhealthy Liveness probe failed: dial tcp 100.96.7.21:10002: getsockopt: connection refused
1h 2m 11 kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal spec.containers{disk} Normal Killing Killing container with id docker://disk:pod "vora-disk-0_vora(2f5ea6df-545b-11e8-90fd-029979a0ef92)" container "disk" is unhealthy, it will be killed and re-created.
1h 58s 51 kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal Warning FailedSync Error syncing pod
1h 58s 41 kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal spec.containers{disk} Warning BackOff Back-off restarting failed container
1h 46s 11 kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal spec.containers{disk} Normal Started Started container
1h 46s 11 kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal spec.containers{disk} Normal Pulled Container image "ip-172-31-13-236.ap-southeast-2.compute.internal:5000/vora/dqp:2.1.32.19-vora-2.1" already present on machine
1h 46s 11 kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal spec.containers{disk} Normal Created Created container
1h 1s 988 kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal spec.containers{disk} Warning Unhealthy Readiness probe failed: HTTP probe failed with statuscode: 503
感谢任何解决此问题的指示。
感谢弗兰克的建议和指点。当然,这有助于克服一些问题,但不是全部。
我们特别观察到与 Vora 服务无故宕机相关的问题。虽然我们知道 Vora 出现故障可能有某些原因,但恢复程序在管理员指南或互联网上的任何地方都不可用。我们已经看到由 vora-operator 创建的 Vora 服务出现故障(每个 pods 都包含一个安全容器和其他特定于服务的容器。特定于服务的容器出现故障并且不会启动)。我们尝试了各种选项,例如重启所有 vora pods 或仅重启与 vora 部署操作员相关的 pods 但这些 pods 没有出现。在这种情况下,我们正在重新部署 Vora,但这实质上意味着之前的所有工作都将消失。有什么命令或方法可以让 Vora pods 拿出所有容器吗?
此问题已在SAP Note 2631736 - Liveness and Readiness issue in Vora 2.x中描述 - 建议增加健康检查间隔。
我已经使用 kops 在 AWS 上安装了 SAP Vora2.1。它是一个具有 1 个主节点和 3 个节点的 4 节点集群。 vsystem-vrep 的持久卷要求使用 AWS-EFS 提供,其他有状态组件使用 AWS-EBS 提供。虽然安装顺利并运行了几天,但在 5 vora pods 之后的 3-4 天后开始出现一些问题, vora目录 Vora-关系 Vora 时间序列 vora-tx-协调器 vora 磁盘
这些 pods 中的每一个都有 2 个容器,并且都应该启动并且 运行。然而,3-4 天后,其中一个容器自行关闭,尽管 kubernetes 集群已启动并且 运行。我尝试了各种方法来将这些 pods 和 运行 所有必需的容器都放在其中,但它没有出现。
我已经捕获了 vora-disk 的事件作为示例,但所有 pods 都显示相同的轨迹,
Events:
FirstSeen LastSeen Count From SubObjectPath Type Reason Message
--------- -------- ----- ---- ------------- -------- ------ -------
1h 7m 21 kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal spec.containers{disk} Warning Unhealthy Liveness probe failed: dial tcp 100.96.7.21:10002: getsockopt: connection refused
1h 2m 11 kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal spec.containers{disk} Normal Killing Killing container with id docker://disk:pod "vora-disk-0_vora(2f5ea6df-545b-11e8-90fd-029979a0ef92)" container "disk" is unhealthy, it will be killed and re-created.
1h 58s 51 kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal Warning FailedSync Error syncing pod
1h 58s 41 kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal spec.containers{disk} Warning BackOff Back-off restarting failed container
1h 46s 11 kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal spec.containers{disk} Normal Started Started container
1h 46s 11 kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal spec.containers{disk} Normal Pulled Container image "ip-172-31-13-236.ap-southeast-2.compute.internal:5000/vora/dqp:2.1.32.19-vora-2.1" already present on machine
1h 46s 11 kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal spec.containers{disk} Normal Created Created container
1h 1s 988 kubelet, ip-172-31-64-23.ap-southeast-2.compute.internal spec.containers{disk} Warning Unhealthy Readiness probe failed: HTTP probe failed with statuscode: 503
感谢任何解决此问题的指示。
感谢弗兰克的建议和指点。当然,这有助于克服一些问题,但不是全部。
我们特别观察到与 Vora 服务无故宕机相关的问题。虽然我们知道 Vora 出现故障可能有某些原因,但恢复程序在管理员指南或互联网上的任何地方都不可用。我们已经看到由 vora-operator 创建的 Vora 服务出现故障(每个 pods 都包含一个安全容器和其他特定于服务的容器。特定于服务的容器出现故障并且不会启动)。我们尝试了各种选项,例如重启所有 vora pods 或仅重启与 vora 部署操作员相关的 pods 但这些 pods 没有出现。在这种情况下,我们正在重新部署 Vora,但这实质上意味着之前的所有工作都将消失。有什么命令或方法可以让 Vora pods 拿出所有容器吗?
此问题已在SAP Note 2631736 - Liveness and Readiness issue in Vora 2.x中描述 - 建议增加健康检查间隔。