Google BigQuery 是否支持 Parquet 文件格式？

Question

我想知道 Google BigQuery 目前是否支持 Parquet file format 或者是否有计划支持它？

我知道它目前支持 CSV 和 JSON 格式。

Answer 1

目前 BigQuery 不支持 Parquet 文件格式。但是，我们有兴趣了解更多关于您的用例的信息 - 您对导入、导出或两者都感兴趣吗？你打算如何使用它？更好地了解场景将有助于 BigQuery 团队做出相应的计划。

Answer 2

如果要在 BigQuery 和 Hadoop 之间共享文件格式，可以使用换行符分隔的 JSON 记录。

BigQuery 支持这些导入和导出。

Hadoop 也支持这一点。在 Internet 上搜索可以找到许多显示使它起作用的方法的点击。这是一个：Processing JSON using java Mapreduce

Answer 3

** 自 2018 年 3 月 1 日起，支持 loading Parquet 1.0 files。

在 BigQuery CLI 中，--source_format PARQUET 选项在 bq --help 的输出中进行了描述。

我从来没有使用过它，因为当我试验这个功能时，它仍然是仅限邀请的，我没有请求邀请。

我的用例是 Parquet 文件的大小是 Avro 文件的一半。我想尝试一些新的东西并高效地上传数据（按此顺序）。

% bq load --source_format PARQUET test.test3 data.avro.parquet schema.json 
Upload complete.
Waiting on bqjob_r5b8a2b16d964eef7_0000015b0690a06a_1 ... (0s) Current 
status: DONE   
[...]

Answer 4

当您处理数亿行并需要将数据移动到本地 Hadoop 集群时，即从 bigQuery 导出，json 只是不可行的选择，avro 也好不了多少，今天这种数据移动的唯一有效选择是 gz，不幸的是，它无法在 Hadoop 中本地读取，Larquet 是这种用例的唯一有效方法，我们没有任何其他有效选择

Answer 5

示例（part-* 是这里的秘诀）：

bq load --source_format=PARQUET --replace=true abc.def gs://abc/def/part-*

Google BigQuery 是否支持 Parquet 文件格式？

Does Google BigQuery supports Parquet file format?

google-bigquery

parquet