Python 的 Dataflow/Beam 样本
Sample in Dataflow / Beam with Python
我正在尝试使用 Dataflow/Beam 上的 Python SDK 获取 PCollection
中项目的示例。
虽然没有记录,但 Sample.FixedSizeGlobally(n)
存在。
在测试时,似乎 到 return 一个 PCollection
具有单个项目:包含样本的列表,而不是 PCollection
与样品。那是对的吗?
这样做是将单项 PCollection
变成 PCollection
项的最佳方式吗?
| Sample.FixedSizeGlobally(sample_size)
| beam.FlatMap(lambda x: x)
目前,是的。 Sample.FixedSizeGlobally()
转换 returns 具有单个列表元素的 PCollection。你可以像你说的那样把它变成单个元素的 PCollection:
Sample.FixedSizeGlobally(sample_size)
| beam.FlatMap(lambda x: x)
我们将确保添加 PC-PC 转换 - 我们也欢迎您对 Beam 的贡献:) - 但与此同时,这就是我们所拥有的。
我正在尝试使用 Dataflow/Beam 上的 Python SDK 获取 PCollection
中项目的示例。
虽然没有记录,但 Sample.FixedSizeGlobally(n)
存在。
在测试时,似乎 到 return 一个 PCollection
具有单个项目:包含样本的列表,而不是 PCollection
与样品。那是对的吗?
这样做是将单项 PCollection
变成 PCollection
项的最佳方式吗?
| Sample.FixedSizeGlobally(sample_size)
| beam.FlatMap(lambda x: x)
目前,是的。 Sample.FixedSizeGlobally()
转换 returns 具有单个列表元素的 PCollection。你可以像你说的那样把它变成单个元素的 PCollection:
Sample.FixedSizeGlobally(sample_size)
| beam.FlatMap(lambda x: x)
我们将确保添加 PC-PC 转换 - 我们也欢迎您对 Beam 的贡献:) - 但与此同时,这就是我们所拥有的。