Google 数据流模板 | Python SDK |局限性

Google Dataflow Templates | Python SDK | LImitations

请求社区总结 Python SDK 在 Google DataFlow 模板上的局限性:

  1. Python SDK 对来源有限制:我们没有用于 BigQuery、BigTable 和 Pubsub 来源的连接器可以带运行时参数。
  2. 我们支持运行时参数,但仅用于简单的参数替换。
  3. 不支持
  4. NestedValueProvider(它允许我们从另一个 ValueProvider 对象计算一个值)。

如有错误请指正。如果我遗漏了什么,请告诉我。

根据 Apache Beam Python SDK documentation,BigQuery 读取连接器支持 ValueProvider 对象,因此应该可以在 BigQuery 源上使用运行时参数。

BigTable connector暂未提供reading/source支持,目前只能使用BigTable作为写输出;但是,尚不支持 ValueProvider 参数。

Pub/Sub connector 支持源和接收器,仅在流式管道中。与 BigTable 连接器一样,ValueProvider 参数尚待支持。

关于 NestedValueProvider,是的,如 Dataflow templates documentation 中所述,Python 的 Apache Beam SDK 不支持 NestedValueProvider.

您可以随时查看 Apache Beam release notes to keep updated about latest features or follow up related feature requests on Jira, for example, there's already an open request for DynamicDestinations implementation for BigtableIO,尽管它适用于 Java SDK。