Alteryx - 从 SQL 服务器批量复制到 Greenplum - 需要提高性能的技巧

Alteryx - bulk copy from SQL Server to Greenplum - need tips to increase performance

此处需要建议:使用 Alteryx Designer,我正在从 SQL 服务器(1000 万行)中提取大型数据集,并且需要移至 Greenplum DB

我尝试使用输入数据(SQL 服务器)和输出数据(GP)进行连接,还尝试连接数据库内(SQL 服务器)和写入数据库内数据(GP)

任何方法都需要生命才能完成,我必须取消该过程(给出一个想法,在周末它 运行 18 小时并且前进不超过 1%)

任何加速此类海量数据加载的好建议或技巧将不胜感激!

我可以在 SQL 服务器和 Alteryx 上控制或进行修改以提高性能,但在 Greenplum 中不行

提前致谢。

此致, 埃里克

我将分解您所采用的方法。

  • 您将无法使用 IN-DB 工具,因为数据库不同,因此您无法将处理推送到数据库...

  • 使用标准的 Alteryx 工具,您将整个 table 放到您的机器上,然后再次将其推出,有多种方法可以完成此操作,具体取决于您的位置堵塞群岛

  • 首先查看 SQL 的摘录,1000 万行并不算多,因此您可以拆分流程并将其写为 yxdb。如果失败或需要几个小时,那么您将需要查看与 SQL 服务器的连接或 SQL 服务器上可用的资源。

  • 然后对于推送到Greenplum,目前没有PostgreS批量加载器,所以你可以尝试写整个table,或者你可以写table 到 Greenplum 中的临时 tables,然后执行一个命令来组合这些 tables.

我们每天从 SQL 服务器向 Greenplum 提取数百万行,我们使用名为 Outsourcer 的开源工具。这是一个很棒的工具,负责清理和其他工作。我们使用这个工具已经 3.5 年了,直到现在都没有问题。它负责所有并行性,数百万行在几分钟内加载。

它支持增量或完全加载。如果您需要支持,外包商的所有者 Jon Robert 将在几分钟内回复您的电子邮件。这是工具

的 link

https://www.pivotalguru.com/