Google BigQuery 是否支持 Parquet 文件格式?

Does Google BigQuery supports Parquet file format?

我想知道 Google BigQuery 目前是否支持 Parquet file format 或者是否有计划支持它?

我知道它目前支持 CSV 和 JSON 格式。

目前 BigQuery 不支持 Parquet 文件格式。但是,我们有兴趣了解更多关于您的用例的信息 - 您对导入、导出或两者都感兴趣吗?你打算如何使用它?更好地了解场景将有助于 BigQuery 团队做出相应的计划。

如果要在 BigQuery 和 Hadoop 之间共享文件格式,可以使用换行符分隔的 JSON 记录。

BigQuery 支持这些导入和导出。

Hadoop 也支持这一点。在 Internet 上搜索可以找到许多显示使它起作用的方法的点击。这是一个:Processing JSON using java Mapreduce

** 自 2018 年 3 月 1 日起,支持 loading Parquet 1.0 files

在 BigQuery CLI 中,--source_format PARQUET 选项在 bq --help 的输出中进行了描述。

我从来没有使用过它,因为当我试验这个功能时,它仍然是仅限邀请的,我没有请求邀请。

我的用例是 Parquet 文件的大小是 Avro 文件的一半。我想尝试一些新的东西并高效地上传数据(按此顺序)。

% bq load --source_format PARQUET test.test3 data.avro.parquet schema.json 
Upload complete.
Waiting on bqjob_r5b8a2b16d964eef7_0000015b0690a06a_1 ... (0s) Current 
status: DONE   
[...]

当您处理数亿行并需要将数据移动到本地 Hadoop 集群时,即从 bigQuery 导出,json 只是不可行的选择,avro 也好不了多少,今天这种数据移动的唯一有效选择是 gz,不幸的是,它无法在 Hadoop 中本地读取,Larquet 是这种用例的唯一有效方法,我们没有任何其他有效选择

示例(part-* 是这里的秘诀):

bq load --source_format=PARQUET --replace=true abc.def gs://abc/def/part-*