是否可以将非文本文件读入 google 数据流管道?
Is it possible to read non-text files into a google dataflow pipeline?
我想将 pdf 文件读入管道。但是,除了纯文本或 xml.
之外,我还没有找到任何关于文件格式的 Apache Beam 示例
Dataflow 或 Apache Beam 库中没有预先存在的 PDF reader。但是,您可以使用此 reader 的 TensorFlow 记录示例作为模型,使用您选择的 PDF 解析库编写您自己的记录。
我想将 pdf 文件读入管道。但是,除了纯文本或 xml.
之外,我还没有找到任何关于文件格式的 Apache Beam 示例Dataflow 或 Apache Beam 库中没有预先存在的 PDF reader。但是,您可以使用此 reader 的 TensorFlow 记录示例作为模型,使用您选择的 PDF 解析库编写您自己的记录。