关键的 greenplum - talend 的 gpload 问题

Pivotal greenplum - gpload issue with talend

当我尝试 运行 来自 talend etl server.In 的 gpload 进程时,我需要先配置 tgreenpluGPload 组件。在对组件进行配置时,它正在寻找远程 Greenplum 服务器文件而不是基于本地 windows 的 talend ETL 文件。

ENV 详细信息

Talend 服务器基于 - windows 服务器 2012

基于-centos 7的Greenplum集群

主要原因: Greenplum 数据库服务器 (Linux) 与 ETL talend 服务器 (window) 是远程的。因此,当我从 window 服务器 运行 宁作业时,greenplum 数据库服务器对它来说是远程的。另外,我无法配置组件 tgreenplumGPload。

截图tgreenplumGPload设置:

更多细节: 1) gpfdist 程序 运行 在 Greenplum master 主机上运行。

[gpadmin@mdw ~]$ ps -A | grep gpfdist
20071 pts/0    00:00:00 gpfdist
[gpadmin@mdw ~]$

2) 从 gpdb 命令行检查合并操作 - 以下过程在 greenplum 服务器中 运行ning。

[gpadmin@mdw ~]$ gpload -f gpload.yml
2017-02-25 20:20:48|INFO|gpload session started 2017-02-25 20:20:48
2017-02-25 20:20:48|INFO|started gpfdist -p 8081 -P 8082 -f "/home/gpadmin/demo/gp_RevenueReport_stg0.txt" -t 30
2017-02-25 20:20:48|INFO|running time: 0.20 seconds
2017-02-25 20:20:48|INFO|rows Inserted          = 0
2017-02-25 20:20:48|INFO|rows Updated           = 3
2017-02-25 20:20:48|INFO|data formatting errors = 0
2017-02-25 20:20:48|INFO|gpload succeeded

Q1: 如何在 Linux 上为 Windows 到 access.so 设置共享文件夹,我们可以在 tgreenplumGPload 设置中使用。或者有没有其他方法可以做到这一点。

如有任何帮助,我们将不胜感激!

gpfdist 将 运行 在 ETL 服务器上,而不是在 Master 主机上。

您必须将 ETL 服务器 ip 和名称添加到 Greenplum 集群中所有节点上的 /etc/hosts 文件中。然后您需要确保 ETL 服务器可以直接与 Greenplum 私有网络中的段主机通信。这将需要将 Greenplum 使用的 10GB 专用交换机连接到您的 10GB LAN 并创建一个 VLAN,以便您可以访问节点,或者您可以 运行 从您的 ETL 服务器连接 10GB 电缆以打开 10GB 交换机的端口并分配它与现有主机不冲突的 IP 地址。