在 Google Cloud Dataflow 上安装 pandas 0.20.3 需要很长时间

Installing pandas 0.20.3 on Google Cloud Dataflow takes a very long time

在 Google Cloud Dataflow 上使用 Apache Beam Python SDK 2.0.0 时,安装 Pandas 0.20.3 需要很长时间(大约 8 分钟)。安装主要挂在消息Running setup.py bdist_wheel for pandas: still running...上。然而,在我的机器上,安装相同版本的 pandas 甚至不需要 30 秒(即使在清除 pip 缓存之后)。现在安装 pandas 大约需要 运行 我管道成本的三分之一。关于为什么这需要这么多时间的任何想法?

Dataflow SDK 以仅源形式暂存依赖项,因为客户端架构不一定与用作 Dataflow worker 的 VM 匹配。这将导致 pandas 从源代码安装并在 VM 上编译需要很长时间。

可以通过使用 --extra_package 标志并指向 whl 文件来解决这个问题。对于 pandas,您可以使用 pandas.

的 pypi 页面中相应的 whl 文件(py27,x86_64)