数据流管道中的外部 Python 依赖项

External Python Dependencies in Dataflow Pipeline

能否将 python 依赖项加载到 Google Cloud Dataflow 管道中?

我想使用gensim's phrase modeler逐行读取数据来自动检测common phrases/bigrams(两个经常相邻出现的词)。

因此管道的第一个 运行 将把每个句子传递给这个短语建模器。

第二次通过管道将采用相同的短语建模器并将该短语建模器应用于每个句子,以识别应一起建模的短语。示例:

这可以在 Dataflow 中完成吗?

能否在工作机器上强制 pip install gensim 传递 build/requirements 文件?

您可以查看此页面以管理管道中的依赖项:

https://beam.apache.org/documentation/sdks/python-pipeline-dependencies

示例:对于 PyPI 上的包,您可以通过添加以下命令行选项来使用需求文件:

--requirements_file requirements.txt