在 apache beam 中嵌套管道
Nesting pipelines in apache beam
我希望使用 apache beam 执行以下操作。
专门针对张量流神经网络进行预处理。
- 对于文件夹中的每个文件。
- 对于文件中的每一行
- 将行处理到 1d 浮动列表
我需要每个 return 成为每个文件的二维浮点数列表。
我想我可以通过创建嵌套管道来实现。
我可以在另一个管道的 ParDo 中创建和 运行 一个管道。
这似乎效率低下,但我的问题似乎是一个非常标准的用例。
- 是否有工具可以在 apache beam 中更好地完成这项工作?
- 有没有办法重组我的问题,使其在 apache beam 中更好地工作?
- 嵌套管道没有我想象的那么糟糕吗?
谢谢
Apache Beam 是使用 Tensorflow 为机器学习预处理数据的好工具。此 post.
中提供了有关此一般用例和 tf.Transform
的更多信息
没有任何描述似乎表明需要 "nested pipelines"。处理目录中每个文件的每一行是一个简单的 TextIO.Read
转换。目前还不清楚您从现在开始的要求是什么,但是,一般来说,将线分成浮点数并与其他线连接是简单的 ParDo 和分组操作。
作为一般指导,我会避免嵌套管道,并尝试分解问题以适应单个管道。
我希望使用 apache beam 执行以下操作。
专门针对张量流神经网络进行预处理。
- 对于文件夹中的每个文件。
- 对于文件中的每一行
- 将行处理到 1d 浮动列表
- 对于文件中的每一行
我需要每个 return 成为每个文件的二维浮点数列表。
我想我可以通过创建嵌套管道来实现。
我可以在另一个管道的 ParDo 中创建和 运行 一个管道。
这似乎效率低下,但我的问题似乎是一个非常标准的用例。
- 是否有工具可以在 apache beam 中更好地完成这项工作?
- 有没有办法重组我的问题,使其在 apache beam 中更好地工作?
- 嵌套管道没有我想象的那么糟糕吗?
谢谢
Apache Beam 是使用 Tensorflow 为机器学习预处理数据的好工具。此 post.
中提供了有关此一般用例和tf.Transform
的更多信息
没有任何描述似乎表明需要 "nested pipelines"。处理目录中每个文件的每一行是一个简单的 TextIO.Read
转换。目前还不清楚您从现在开始的要求是什么,但是,一般来说,将线分成浮点数并与其他线连接是简单的 ParDo 和分组操作。
作为一般指导,我会避免嵌套管道,并尝试分解问题以适应单个管道。