Informatica Powercenter 中哪个性能更好?使用排序器转换或在源限定符上添加排序端口数?
Which one is better performance wise in Informatica Powercenter? Use sorter transformation or add number of sorted ports on source qualifier?
我在 Informatica Powercenter 中有一个映射,它结合了来自两个来源的数据。一个来源有大约 2200 万行数据,而另一个来源有超过 3.89 亿行数据。如果我添加排序器转换在性能方面会更好,还是在源限定符中添加排序端口的数量更好?
另外,是什么因素使一种方式比另一种方式更好(在排序器转换的情况下与在 SQ 中添加排序端口的数量)?
如果两个 table 来自同一个 DB,毫无疑问 - 使用排序端口数在 SQ 中排序。
Informatica 排序器将整个数据导入 infa 服务器,然后对其进行排序。因此,对 300M 结果数据进行排序将花费大量时间和资源。
现在,在源中加入 389 M 和 22M table 并在源本身中对结果进行排序将花费更少的时间和资源。 Informatica 不必将任何数据导入其服务器。
现在,如果它们来自不同的数据库,那么,在源限定符中对它们进行排序将在加入时提高性能。您必须使用 joiner 加入它们才能获得整个数据集。而且我认为如果您的排序键与连接键相同并且您不必使用排序器再次排序,则数据顺序将相同。问题是加入两者需要时间。
我在 Informatica Powercenter 中有一个映射,它结合了来自两个来源的数据。一个来源有大约 2200 万行数据,而另一个来源有超过 3.89 亿行数据。如果我添加排序器转换在性能方面会更好,还是在源限定符中添加排序端口的数量更好? 另外,是什么因素使一种方式比另一种方式更好(在排序器转换的情况下与在 SQ 中添加排序端口的数量)?
如果两个 table 来自同一个 DB,毫无疑问 - 使用排序端口数在 SQ 中排序。
Informatica 排序器将整个数据导入 infa 服务器,然后对其进行排序。因此,对 300M 结果数据进行排序将花费大量时间和资源。
现在,在源中加入 389 M 和 22M table 并在源本身中对结果进行排序将花费更少的时间和资源。 Informatica 不必将任何数据导入其服务器。
现在,如果它们来自不同的数据库,那么,在源限定符中对它们进行排序将在加入时提高性能。您必须使用 joiner 加入它们才能获得整个数据集。而且我认为如果您的排序键与连接键相同并且您不必使用排序器再次排序,则数据顺序将相同。问题是加入两者需要时间。