如何在 Google Cloud Dataproc 上 运行 Presto?

How can I run Presto on Google Cloud Dataproc?

我想 运行 Presto on a Dataproc instance or on Google Cloud Platform 一般。如何轻松设置和安装 Presto,尤其是 Hive?

您可以使用 initialization action with a Cloud Dataproc cluster to quickly install and configure Presto. Specifically, there is a GitHub repository with initialization actions. There is a Presto initialization action 来快速安装和配置 Presto。

如果您想使用 Presto WebUI,一旦集群在线,您就可以按照 these directions 为集群创建 SSH 隧道和 SOCKS 代理。从那里,您可以访问主节点上端口 8080 上的 Presto(默认情况下,除非您更改它)。

现在有官方教程Use Presto with Google Cloud Dataproc。基本上,您可以

  1. 使用 Presto init 操作创建集群:

gcloud dataproc clusters create presto-cluster \ --project=${PROJECT} \ --zone=${ZONE} \ --num-workers=${WORKERS} \ --scopes=cloud-platform \ --initialization-actions=gs://dataproc-initialization-actions/presto/presto.sh

  1. 创建从本地计算机到主节点的 SSH 隧道:

gcloud compute ssh presto-cluster-m \ --project=${PROJECT} \ --zone=${ZONE} \ -- -D 1080 -N

  1. 通过 SSH 隧道使用 Presto CLI 连接到 Presto 协调器:

./presto-cli \ --server presto-cluster-m:8080 \ --socks-proxy localhost:1080 \ --catalog hive \ --schema default