使用 BigQueryToCloudStorageOperator 导出为 JSON
Export as JSON using BigQueryToCloudStorageOperator
当我手动使用 BigQuery 控制台时,我可以看到将 table 导出到 GCS 时的 3 个选项是 CSV
、JSON (Newline delimited)
和 Avro
。
对于 Airflow,当使用 BigQueryToCloudStorageOperator
运算符时,传递给 export_format
的正确值是多少,以便将数据作为 JSON (Newline delimited)
传输到 GCS?只是 JSON
吗?我在网上看到的 BigQueryToCloudStorageOperator
的所有示例都使用 export_format='CSV'
,从来没有使用 JSON,所以我不确定这里的正确值是什么。我们的用例需要 JSON,因为我们 DAG 中的第二个任务(在将数据传输到 GCS 之后)是使用 mongoimport
.[=22 将数据从 GCS 加载到我们的 MongoDB 集群中=]
根据 BigQuery documentation,您可以将 BigQuery 查询结果导出为三种可能的格式:CSV
、JSON
和 Avro
(这是兼容的使用 UI 下拉菜单)。
我会尝试 export_format='JSON'
,正如你已经提议的那样。
在找到文档 https://cloud.google.com/bigquery/docs/reference/rest/v2/Job#jobconfigurationextract 并参考 destinationFormat
的值后,我发现值 export_format='NEWLINE_DELIMITED_JSON' 是必需的
当我手动使用 BigQuery 控制台时,我可以看到将 table 导出到 GCS 时的 3 个选项是 CSV
、JSON (Newline delimited)
和 Avro
。
对于 Airflow,当使用 BigQueryToCloudStorageOperator
运算符时,传递给 export_format
的正确值是多少,以便将数据作为 JSON (Newline delimited)
传输到 GCS?只是 JSON
吗?我在网上看到的 BigQueryToCloudStorageOperator
的所有示例都使用 export_format='CSV'
,从来没有使用 JSON,所以我不确定这里的正确值是什么。我们的用例需要 JSON,因为我们 DAG 中的第二个任务(在将数据传输到 GCS 之后)是使用 mongoimport
.[=22 将数据从 GCS 加载到我们的 MongoDB 集群中=]
根据 BigQuery documentation,您可以将 BigQuery 查询结果导出为三种可能的格式:CSV
、JSON
和 Avro
(这是兼容的使用 UI 下拉菜单)。
我会尝试 export_format='JSON'
,正如你已经提议的那样。
在找到文档 https://cloud.google.com/bigquery/docs/reference/rest/v2/Job#jobconfigurationextract 并参考 destinationFormat
的值后,我发现值 export_format='NEWLINE_DELIMITED_JSON' 是必需的