Google DataFlow 和读取 Parquet 文件

Google DataFlow & Reading Parquet files

尝试使用 Google DataFlow Java SDK 但对于我的用例，我的输入文件是 .parquet 文件。

找不到任何开箱即用的功能来将 parquet 作为有界数据源读入 DataFlow 管道。据我了解，我可以基于 Parquet Reader.

创建一个编码器 and/or 接收器，有点像 AvroIO

有没有人可以建议最好的实施方式？或指向我参考操作方法\示例？

感谢您的帮助！

--A

找到 ParquetIO（您称之为开箱即用功能）的进展

同时，应该可以在 Beam and Dataflow SDKs.

中使用 Hadoop FileInputFormat 读取 Parquet 文件