JupyterHub 笔记本服务器返回 500 错误,pod 卡在 "terminating" 状态

JupyterHub notebook server returning 500 error, pod stuck in "terminating" state

我有一个运行 JupyterHub 应用程序的 AWS EKS 集群(kubernetes 版本 1.14)。

其中一个用户笔记本服务器返回 500 错误

500 : Internal Server Error Redirect loop detected. Notebook has JupyterHub version unknown (likely < 0.8), but the hub expects 0.9.6. Try installing JupyterHub==0.9.6 in the user environment if you continue to have problems. You can try restarting your server from the homepage.

只有一位用户遇到此问题,其他用户则没有。当我执行 "kubectl get pod" 时,此用户 pod 显示它处于 "terminating" 状态(它似乎卡在该状态)。

我能够修复它,但我不能说这是正确的方法。 (我更愿意诊断根本原因)

  1. 首先,我尝试删除 pod kubectl delete pod <pod_name> -- 它没有用
  2. 其次,我尝试强制删除 pod kubectl delete pod <pod_name> --grace-period=0 --force——它起作用了,但事实证明这只会删除句柄,然后 pod 资源在集群上成为孤立的
  3. 我检查了节点状态 kubectl get node 并注意到一个节点卡在 NotReady 状态。我回收了这个节点 -- 仍然没有工作,用户笔记本服务器仍然卡住并返回 500 err
  4. 最后,我简单地从jupyter hub管理页面删除了用户笔记本服务器。这修复了....