Bigquery 作为 Dataproc 的元存储

Bigquery as metastore for Dataproc

我们正在尝试将 pyspark 脚本从内部部署迁移到 GCP 平台,该脚本在 Hive 中使用数据转换创建和删除表。

Hive 被 BigQuery 取代。 本例使用spark-bigquery-connector将hive读写转换为bigquery读写。

然而,问题在于通过 spark sql 创建和删除 bigquery 表,因为 spark sql 将默认 运行 在由 hive metastore 支持的 hive 上创建和删除查询不大查询。

我想检查是否有计划合并 DDL 语句支持以及 spark-bigquery-connector 的一部分。

此外,从架构的角度来看,是否可以将 spark sql 的元存储基于 bigquery,以便任何创建或删除语句都可以 运行 来自 spark 的 bigquery。

我认为 Spark SQL 不会支持 BigQuery 作为 Metastore,BQ 连接器也不支持 BQ DDL。在 Dataproc 上,Dataproc Metastore (DPMS) 是 Hive 和 Spark SQL 元存储的推荐解决方案。

特别是 no-prem 到 Dataproc 迁移,迁移到 DPMS 更直接,请参阅此 doc