在 apache beam 中嵌套管道

Nesting pipelines in apache beam

我希望使用 apache beam 执行以下操作。
专门针对张量流神经网络进行预处理。

我需要每个 return 成为每个文件的二维浮点数列表。

我想我可以通过创建嵌套管道来实现。
我可以在另一个管道的 ParDo 中创建和 运行 一个管道。

这似乎效率低下,但我的问题似乎是一个非常标准的用例。

谢谢

A​​pache Beam 是使用 Tensorflow 为机器学习预处理数据的好工具。此 post.

中提供了有关此一般用例和 tf.Transform 的更多信息

没有任何描述似乎表明需要 "nested pipelines"。处理目录中每个文件的每一行是一个简单的 TextIO.Read 转换。目前还不清楚您从现在开始的要求是什么,但是,一般来说,将线分成浮点数并与其他线连接是简单的 ParDo 和分组操作。

作为一般指导,我会避免嵌套管道,并尝试分解问题以适应单个管道。