由于 HttpNotFoundError,数据流作业失败
Dataflow job failed due to HttpNotFoundError
我们的云 DataFlow 作业从 BigQuery 读取数据,进行一些预处理,然后写回 BigQuery。不幸的是,它在从 BigQuery 读取数小时后失败并显示以下错误消息:
提高exceptions.HttpError.FromResponse(响应)apitools.base.py.exceptions.HttpNotFoundError:HttpError 访问:响应:<{'x-guploader-uploadid':'AEnB2UpgIuanY0AawrT7fRC_VW3aRfWSdrrTwT_TqQx1fPAAAUohVoL-8Z8Zw_aYUQcSMNqKIh5R2TulvgHHsoxLWo2gl6wUEA','content-type':'text/html; charset=UTF-8' , 'date': 'Tue, 19 Nov 2019 15:28:07 GMT', 'vary': 'Origin, X-Origin', 'expires': 'Tue, 19 Nov 2019 15:28:07 GMT', 'cache-control': 'private, max-age=0', 'content-length': '142', 'server': 'UploadServer', 'status': '404'}>, content No such object: --project--/beam/temp--job-name---191119-084402.1574153042.687677/11710707918635668555/ 000000000009.avro>
在此错误之前,日志显示了很多与这些类似的条目:
有人知道什么可能导致 DataFlow 作业失败吗?当运行这个作业在一小部分数据上时,完全没有问题。
我们仔细查看了日志,发现很多记录如下:
在步骤 s2 中,处理停顿时间超过 350.68 秒,处理时间为 process-msecs。回溯 [...] doc = spacy(input_str)
我们对此错误消息进行了更多调查,发现 spaCy 1.1.8 版(在我们的管道中用于词形还原)存在内存泄漏,如下所述:GitHub 因此,我们已将 spaCy 升级到最新版本,问题消失了。
我们的云 DataFlow 作业从 BigQuery 读取数据,进行一些预处理,然后写回 BigQuery。不幸的是,它在从 BigQuery 读取数小时后失败并显示以下错误消息:
提高exceptions.HttpError.FromResponse(响应)apitools.base.py.exceptions.HttpNotFoundError:HttpError 访问:响应:<{'x-guploader-uploadid':'AEnB2UpgIuanY0AawrT7fRC_VW3aRfWSdrrTwT_TqQx1fPAAAUohVoL-8Z8Zw_aYUQcSMNqKIh5R2TulvgHHsoxLWo2gl6wUEA','content-type':'text/html; charset=UTF-8' , 'date': 'Tue, 19 Nov 2019 15:28:07 GMT', 'vary': 'Origin, X-Origin', 'expires': 'Tue, 19 Nov 2019 15:28:07 GMT', 'cache-control': 'private, max-age=0', 'content-length': '142', 'server': 'UploadServer', 'status': '404'}>, content No such object: --project--/beam/temp--job-name---191119-084402.1574153042.687677/11710707918635668555/ 000000000009.avro>
在此错误之前,日志显示了很多与这些类似的条目:
有人知道什么可能导致 DataFlow 作业失败吗?当运行这个作业在一小部分数据上时,完全没有问题。
我们仔细查看了日志,发现很多记录如下:
在步骤 s2 中,处理停顿时间超过 350.68 秒,处理时间为 process-msecs。回溯 [...] doc = spacy(input_str)
我们对此错误消息进行了更多调查,发现 spaCy 1.1.8 版(在我们的管道中用于词形还原)存在内存泄漏,如下所述:GitHub 因此,我们已将 spaCy 升级到最新版本,问题消失了。