Google DataFlow 和读取 Parquet 文件
Google DataFlow & Reading Parquet files
尝试使用 Google DataFlow Java SDK 但对于我的用例,我的输入文件是 .parquet 文件。
找不到任何开箱即用的功能来将 parquet 作为有界数据源读入 DataFlow 管道。
据我了解,我可以基于 Parquet Reader.
创建一个编码器 and/or 接收器,有点像 AvroIO
有没有人可以建议最好的实施方式?或指向我参考操作方法\示例?
感谢您的帮助!
--A
您可以在 https://issues.apache.org/jira/browse/BEAM-214.
找到 ParquetIO(您称之为开箱即用功能)的进展
同时,应该可以在 Beam and Dataflow SDKs.
中使用 Hadoop FileInputFormat 读取 Parquet 文件
尝试使用 Google DataFlow Java SDK 但对于我的用例,我的输入文件是 .parquet 文件。
找不到任何开箱即用的功能来将 parquet 作为有界数据源读入 DataFlow 管道。 据我了解,我可以基于 Parquet Reader.
创建一个编码器 and/or 接收器,有点像 AvroIO有没有人可以建议最好的实施方式?或指向我参考操作方法\示例?
感谢您的帮助!
--A
您可以在 https://issues.apache.org/jira/browse/BEAM-214.
找到 ParquetIO(您称之为开箱即用功能)的进展同时,应该可以在 Beam and Dataflow SDKs.
中使用 Hadoop FileInputFormat 读取 Parquet 文件