从 Dataproc 集群上的 Rstudio 运行 连接到 BigQuery

Connecting to BigQuery from Rstudio running on a Dataproc cluster

我创建了 Dataproc 集群并使用以下说明成功启动了 RStudio Server: https://cloud.google.com/solutions/running-rstudio-server-on-a-cloud-dataproc-cluster

我也安装了sparklyr并成功创建了一个Spark实例

sc <- spark_connect(master = "local")

但是,我想知道如何连接到 BigQuery。有一个 sparkbq 库,但我不确定如何传递此处描述的 bigquery jar 连接器(在运行时): https://cloud.google.com/dataproc/docs/tutorials/bigquery-connector-spark-example

您可以使用 Dataproc init 操作在集群的所有节点上安装 spark-bigquery 连接器。 https://github.com/GoogleCloudDataproc/initialization-actions/tree/master/connectors.

您可能必须使用更新的初始化操作重新创建集群并再次启动 RStudio Server。如果您不想这样做并且您的集群很小,您也可以通过 ssh 进入节点并手动下载 SparkBigQuery-connector jar。