Apache Beam 批量到 BigQuery,中间文件,它们只在 JSON 中生成吗

Apache Beam to BigQuery in batch, intermediary files, are they only generated in JSON

我正在读取 CSV 文件,在通过云数据流中的 Beam (2.1.0) 将它们写入 BigQuery 之前对其进行转换。 GCS 中为 Bq 加载作业生成的中间文件是 JSON 个文件。有没有办法在 CSV 中而不是在 JSON 中生成它们,这样会消耗更少的 space 和 IO。如果有办法改变为什么默认是 JSON 而不是 CSV 最好的问候,

CSV 不支持架构中的嵌套或重复数据,这就是 Beam 不使用它进行 BigQuery 导入的原因。 JSON 和 Avro 格式支持它,更改实现以使用 Avro 可能是个好主意(我们已经使用 Avro 从 BigQuery 导出数据)。欢迎在 https://issues.apache.org/jira/browse/BEAM.

提交 JIRA