下载 Big Query Table 为 JSON

Download Big Query Table as JSON

我想下载一个现有的 Big Query table 作为 JSON 来处理具有长字符串的列之一。

Big Query table 已与数据存储区备份文件一起从 App Engine 提取到 GCS。我使用 Big Query 从 GCS 读取数据存储备份文件并从中创建了一个 table,这导致重复的字符串列作为非常长的字符串。

我无法解析长字符串,因此我需要将 table 下载为 JSON,然后重新下载 Big Query 作为新的 table。我需要有关此方法的建议

导出数据的方式有 3 种:

  1. 单个 URI(1 个文件,限制 1GB,很可能你正在使用它)

['gs://my-bucket/file-name.json']

Creates:

gs://my-bucket/file-name.json

  1. 单个通配符 URI(每个 1GB 创建多个文件)

['gs://my-bucket/file-name-*.json']

Creates:

gs://my-bucket/file-name-000000000000.json
gs://my-bucket/file-name-000000000001.json
gs://my-bucket/file-name-000000000002.json ...

  1. 多个通配符 URI(这需要 Hadoop)

gs://my-bucket/file-name-{worker number}-*.json

Creates:

This example assumes that BigQuery creates 80 sharded files in each partition.

gs://my-bucket/file-name-1-000000000000.json
gs://my-bucket/file-name-1-000000000001.json
...
gs://my-bucket/file-name-1-000000000080.json
gs://my-bucket/file-name-2-000000000000.json
gs://my-bucket/file-name-2-000000000001.json
...
gs://my-bucket/file-name-2-000000000080.json
gs://my-bucket/file-name-3-000000000000.json
gs://my-bucket/file-name-3-000000000001.json
...
gs://my-bucket/file-name-3-000000000080.json

阅读更多信息:

https://cloud.google.com/bigquery/exporting-data-from-bigquery