Python 的 Dataflow/Beam 样本

Sample in Dataflow / Beam with Python

我正在尝试使用 Dataflow/Beam 上的 Python SDK 获取 PCollection 中项目的示例。

虽然没有记录,但 Sample.FixedSizeGlobally(n) 存在。

在测试时,似乎 到 return 一个 PCollection 具有单个项目:包含样本的列表,而不是 PCollection 与样品。那是对的吗?

这样做是将单项 PCollection 变成 PCollection 项的最佳方式吗?

| Sample.FixedSizeGlobally(sample_size)
| beam.FlatMap(lambda x: x)

目前,是的。 Sample.FixedSizeGlobally() 转换 returns 具有单个列表元素的 PCollection。你可以像你说的那样把它变成单个元素的 PCollection:

Sample.FixedSizeGlobally(sample_size)
| beam.FlatMap(lambda x: x)

我们将确保添加 PC-PC 转换 - 我们也欢迎您对 Beam 的贡献:) - 但与此同时,这就是我们所拥有的。