Airflow KubernetesPodOperator 失去与 Worker Pod 的连接
Airflow KubernetesPodOperator Losing Connection to Worker Pod
Airflow 1.1.14 上的 KubernetesPodOperator 遇到一个奇怪的问题。
本质上,对于某些作业,Airflow 正在失去与其创建的 pod 的联系。
[2021-02-10 07:30:13,657] {taskinstance.py:1150} ERROR - ('Connection broken: IncompleteRead(0 bytes read)', IncompleteRead(0 bytes read))
当我使用 kubectl logs
检查 kubernetes 中的日志时,我可以看到该作业在连接中断错误后继续进行。
连接中断错误似乎恰好发生在 Airflow 从 pod 中提取最后一个日志后 1 小时(我们确实有 1 小时的连接配置),但 pod 在后台保持 运行 愉快.
我已经多次看到这种行为,并且这种情况往往发生在更长的 运行 作业中,日志输出中存在间隙,但我没有其他线索。如果缺少某些细节,很高兴更新问题。
正如我在评论部分提到的,我认为您可以尝试将运算符 get_logs
参数设置为 False
- 默认值为 True
.
看看:airflow-connection-broken, airflow-connection-issue .
Airflow 1.1.14 上的 KubernetesPodOperator 遇到一个奇怪的问题。
本质上,对于某些作业,Airflow 正在失去与其创建的 pod 的联系。
[2021-02-10 07:30:13,657] {taskinstance.py:1150} ERROR - ('Connection broken: IncompleteRead(0 bytes read)', IncompleteRead(0 bytes read))
当我使用 kubectl logs
检查 kubernetes 中的日志时,我可以看到该作业在连接中断错误后继续进行。
连接中断错误似乎恰好发生在 Airflow 从 pod 中提取最后一个日志后 1 小时(我们确实有 1 小时的连接配置),但 pod 在后台保持 运行 愉快.
我已经多次看到这种行为,并且这种情况往往发生在更长的 运行 作业中,日志输出中存在间隙,但我没有其他线索。如果缺少某些细节,很高兴更新问题。
正如我在评论部分提到的,我认为您可以尝试将运算符 get_logs
参数设置为 False
- 默认值为 True
.
看看:airflow-connection-broken, airflow-connection-issue .