PGPy 不会继续 GCP 数据流管道
PGPy won't go on GCP Dataflow pipeline
我正在尝试在使用 Apache Beam 实现的自定义 GCP 数据流管道中使用 PGPy 库。
我得到的是一切都适用于 DirectRunner,但是当我部署作业并在 DataflowRunner 上执行它时,我在 PGPy 用法上遇到错误:
ModuleNotFoundError: No module named 'pgpy'
我想我在 DataflowRunner 中遗漏了一些东西。
谢谢
管理流水线依赖请参考:
https://beam.apache.org/documentation/sdks/python-pipeline-dependencies/
我个人的偏好是直接使用 setup.py,因为它可以让你处理多个文件依赖关系,一旦管道变得更复杂,它往往会被使用。
我正在尝试在使用 Apache Beam 实现的自定义 GCP 数据流管道中使用 PGPy 库。 我得到的是一切都适用于 DirectRunner,但是当我部署作业并在 DataflowRunner 上执行它时,我在 PGPy 用法上遇到错误:
ModuleNotFoundError: No module named 'pgpy'
我想我在 DataflowRunner 中遗漏了一些东西。
谢谢
管理流水线依赖请参考:
https://beam.apache.org/documentation/sdks/python-pipeline-dependencies/
我个人的偏好是直接使用 setup.py,因为它可以让你处理多个文件依赖关系,一旦管道变得更复杂,它往往会被使用。