GCP Dataproc sqoop 数据(或 运行 上的其他作业)是否可以来自本地数据库?

Can GCP Dataproc sqoop data (or run other jobs on) from local DB?

GCP Dataproc sqoop 可以从本地数据库导入数据以放入 GCP 存储(没有 GCP VPC)吗?

我们有一个远程 Oracle 数据库通过 VPN 隧道连接到我们的本地网络,我们使用 Hadoop 集群每天通过 Apache Sqoop 提取数据。想用 GCP Dataproc 集群替换此过程以 运行 sqoop 作业和 GCP 存储。 发现这篇文章似乎在做类似的事情 Moving Data with Apache Sqoop in Google Cloud Dataproc,但它假设用户有 GCP VPC(我不打算购买)。

所以我的问题是:

如果不使用 VPC/VPN,您将无法授予 Dataproc 对本地数据库的访问权限。

不使用VPC,如果更能满足您的需求,可以使用VPN:https://cloud.google.com/vpn/docs/

您唯一的选择是将您的本地数据库开放到 Internet,这样 Dataproc 就可以在没有 VPC/VPN 的情况下访问它,但这本质上是不安全的。

在这种情况下,在本地安装 GCS 连接器可能会奏效。它不需要 VPC/VPN.