Beam/Dataflow 2.2.0 - 从 pcollection 中提取前 n 个元素

Beam/Dataflow 2.2.0 - extract first n elements from pcollection

有什么方法可以提取光束 pcollection 中的前 n 个元素吗?该文档似乎没有指示任何此类功能。我认为这样的操作首先需要一个全局元素编号分配,然后是一个过滤器——如果有这个功能就好了。

我用Google DataFlow Java SDK 2.2.0.

PCollection 本身是无序的,因此 "first N elements" 的概念不存在 - 但是:

  • 如果根据某些标准需要前 N 个元素,可以使用 the Top transform.

  • 如果你需要any N个元素,你可以使用Sample.