Bigquery 作为 Dataproc 的元存储

Bigquery as metastore for Dataproc

我们正在尝试将 pyspark 脚本从内部部署迁移到 GCP 平台，该脚本在 Hive 中使用数据转换创建和删除表。

Hive 被 BigQuery 取代。本例使用spark-bigquery-connector将hive读写转换为bigquery读写。

然而，问题在于通过 spark sql 创建和删除 bigquery 表，因为 spark sql 将默认运行在由 hive metastore 支持的 hive 上创建和删除查询不大查询。

我想检查是否有计划合并 DDL 语句支持以及 spark-bigquery-connector 的一部分。

此外，从架构的角度来看，是否可以将 spark sql 的元存储基于 bigquery，以便任何创建或删除语句都可以运行来自 spark 的 bigquery。

我认为 Spark SQL 不会支持 BigQuery 作为 Metastore，BQ 连接器也不支持 BQ DDL。在 Dataproc 上，Dataproc Metastore (DPMS) 是 Hive 和 Spark SQL 元存储的推荐解决方案。

特别是 no-prem 到 Dataproc 迁移，迁移到 DPMS 更直接，请参阅此 doc。