gpfdist 与 gpload greenplum

gpfdist vs gpload greenplum

我是第一次设置greenplum。我正在关注 documentation。我想设置从 sql 到 greenplum 数据库的连接。目前正在弄清楚什么是实现这一目标的最佳方法。我遇到了 gpfdist 和 gpload。

两者有何不同?由于两者都使用外部表,因此都在从属节点上工作并用于并行加载。那么使用一个比另一个有什么优势吗?

回答您关于“我想设置从 sql 到 greenplum 数据库的连接”的问题... 您指的是哪个 SQL 数据库不明确。

此外,没有可用于将非 greenplum 数据库连接到 greenplum 数据库的直接连接驱动程序。

不过,如果您想将数据从 Oracle 迁移到 Greenplum,则可以使用 Informatica 的 fastclone 工具。

回答关于 gpfdist 和 gpload 问题的第二部分。 GPFDIST 是一个在主机系统上运行的文件分布式进程,它为多个段并行提供文件。在初始化外部 table 以从文件读取/写入时,您需要指定哪个进程将为该文件提供服务,在您的情况下它将是 GPFDIST。还有其他进程,如 FTP、GPHDFS、HTTP。

GPLOAD 是一个包装实用程序,它通过自动创建 gpfdist 进程和外部 tables 让您的工作更轻松。

另请注意,GPLOAD 只能创建可读外部 tables。

gpfdist n gpload 或相同。在 gpfdist 中,您可以手动执行此操作,而在 gpload 中,您可以通过配置(yaml 文件)文件中的 maiking 条目来自动执行活动。 GPLOAD 是 GPFDIST 的包装器。所以当你通过 gpload 加载数据时,它只会在内部使用 gpfdist。

如果你想将数据从任何其他 RDBMS 加载/迁移到 Greenplum,并且你正在使用任何 ETL 或迁移工具,它将使用正常的复制命令,而 loading/migrating 如果你启用 gpload(现在是几天在大多数 ETL 工具和迁移工具的最新版本中,当您 migrate/load 数据到 Greenplum 时支持 gpload 功能)它将通过内部使用 gpfdist 以并行方式加载数据。