是否可以将非文本文件读入 google 数据流管道?

Is it possible to read non-text files into a google dataflow pipeline?

我想将 pdf 文件读入管道。但是,除了纯文本或 xml.

之外,我还没有找到任何关于文件格式的 Apache Beam 示例

Dataflow 或 Apache Beam 库中没有预先存在的 PDF reader。但是,您可以使用此 reader 的 TensorFlow 记录示例作为模型,使用您选择的 PDF 解析库编写您自己的记录。

https://github.com/apache/beam/blob/master/sdks/java/core/src/main/java/org/apache/beam/sdk/io/TFRecordIO.java