Google 到云存储的云数据流

Google Cloud Dataflow to Cloud Storage

以上参考架构表明存在来自 Cloud Dataflow 的 Cloud Storage 接收器,但是似乎是当前默认 Dataflow API 的 Beam API 没有 Cloud Storage I/O 列出连接器。

任何人都可以帮助澄清是否存在,如果不存在,将数据从 Dataflow 转移到 Cloud Storage 的替代方法是什么。

Beam 支持来自 GCS 的 writing/reading。您只需使用 TextIO 类.

https://beam.apache.org/documentation/sdks/javadoc/0.2.0-incubating/org/apache/beam/sdk/io/TextIO.html

To read a PCollection from one or more text files, use TextIO.Read. You can instantiate a transform using TextIO.Read.from(String) to specify the path of the file(s) to read from (e.g., a local filename or filename pattern if running locally, or a Google Cloud Storage filename or filename pattern of the form "gs:///").

您可以使用 TextIO、AvroIO 或任何其他读取 from/writes 文件的连接器来与 GCS 交互。 Beam 将任何以 "gs://" 开头的文件路径识别为 GCS。 Beam 使用可插入的文件系统 [1] 接口执行此操作。

[1] https://github.com/apache/beam/blob/master/sdks/java/io/google-cloud-platform/src/main/java/org/apache/beam/sdk/io/gcp/storage/GcsFileSystem.java