如何针对现有 Hadoop 集群将 Cloud Data Fusion 管道配置为运行

How do I configure Cloud Data Fusion pipeline to run against existing Hadoop clusters

Cloud Data Fusion 为每个管道创建一个新的 Dataproc 集群运行。我已经有一个运行 24x7 的 Dataproc 集群设置，我想将该集群用于运行管道

这可以通过在系统管理员 -> 配置 -> 系统计算配置文件 -> 创建新的计算配置文件下使用远程 Hadoop 配置程序设置新的计算配置文件来实现。此功能仅适用于企业版 Cloud Data Fusion ("Execution environment selection")。

这里是详细步骤。

Dataproc 集群上的 SSH 设置

一个。导航到 Google Cloud Platform 上的 Dataproc 控制台。点击您的 Dataproc 集群名称，转到“集群详细信息”。

b。在“VM Instances”下，单击“SSH”按钮以连接到 Dataproc VM。

c。按照步骤 here 创建新的 SSH 密钥，格式化 public 密钥文件以强制执行过期时间，并在项目或实例级别添加新创建的 SSH public 密钥。

d.如果 SSH 设置成功，您应该能够在 Compute Engine 控制台的元数据部分看到刚刚添加的 SSH 密钥，以及 Dataproc VM 中的 authorized_keys 文件。
为您的 Data Fusion 实例创建自定义系统计算配置文件

一个。单击“查看实例”导航到您的 Data Fusion 实例控制台

b。点击右上角的“系统管理”。

c。在“配置”选项卡下，展开“系统计算配置文件”。点击“Create New Profile”，然后在下一页选择“Remote Hadoop Provisioner”。

d.填写个人资料的一般信息。

e。您可以在 Compute Engine 下的“VM instance details”页面上找到 SSH 主机 IP 信息。

f。复制在步骤1中创建的SSH私钥，并将其粘贴到“SSH私钥”字段。

克。单击“创建”以创建配置文件。
配置数据融合管道以使用自定义配置文件

一个。单击管道运行针对远程 hadoop

b。单击 Configure -> Compute config 并选择 remote hadoop provisioner config