使用 BigQueryToCloudStorageOperator 导出为 JSON

Export as JSON using BigQueryToCloudStorageOperator

当我手动使用 BigQuery 控制台时,我可以看到将 table 导出到 GCS 时的 3 个选项是 CSVJSON (Newline delimited)Avro

对于 Airflow,当使用 BigQueryToCloudStorageOperator 运算符时,传递给 export_format 的正确值是多少,以便将数据作为 JSON (Newline delimited) 传输到 GCS?只是 JSON 吗?我在网上看到的 BigQueryToCloudStorageOperator 的所有示例都使用 export_format='CSV',从来没有使用 JSON,所以我不确定这里的正确值是什么。我们的用例需要 JSON,因为我们 DAG 中的第二个任务(在将数据传输到 GCS 之后)是使用 mongoimport.[=22 将数据从 GCS 加载到我们的 MongoDB 集群中=]

根据 BigQuery documentation,您可以将 BigQuery 查询结果导出为三种可能的格式:CSVJSONAvro(这是兼容的使用 UI 下拉菜单)。

我会尝试 export_format='JSON',正如你已经提议的那样。

在找到文档 https://cloud.google.com/bigquery/docs/reference/rest/v2/Job#jobconfigurationextract 并参考 destinationFormat

的值后,我发现值 export_format='NEWLINE_DELIMITED_JSON' 是必需的