PGPy 不会继续 GCP 数据流管道

PGPy won't go on GCP Dataflow pipeline

我正在尝试在使用 Apache Beam 实现的自定义 GCP 数据流管道中使用 PGPy 库。 我得到的是一切都适用于 DirectRunner,但是当我部署作业并在 DataflowRunner 上执行它时,我在 PGPy 用法上遇到错误:

ModuleNotFoundError: No module named 'pgpy'

我想我在 DataflowRunner 中遗漏了一些东西。

谢谢

管理流水线依赖请参考:

https://beam.apache.org/documentation/sdks/python-pipeline-dependencies/

我个人的偏好是直接使用 setup.py,因为它可以让你处理多个文件依赖关系,一旦管道变得更复杂,它往往会被使用。