Azure 数据工厂数据流 SELECT 不同
Azure data factory dataflow SELECT DISTINCT
我有一个包含几个连接的数据流,在进行连接 #5 时,行数从 10,000 增加到 320,000(举例说明数量如何增加),但在那之后我有更多连接因此数据流需要更长的时间才能完成。
我所做的是在连接之后添加一个聚合转换,以对我稍后将使用的字段进行分组,以我在数据库查询中使用 SELECT DISTINCT 的方式使用它,但仍然需要很长时间才能完成。
如何使此数据流 运行 更快?
我应该在每个连接之间使用聚合(并按字段分组)以避免重复,还是仅在行开始增加的连接后添加聚合(并按字段分组...)?
谢谢。
您能否切换到查找而不是加入,然后选择“运行 单行”。这一步提供了 SELECT DISTINCT 功能。
此外,要加快处理速度 end-to-end,请尝试提高内存优化并增加核心数。
我有一个包含几个连接的数据流,在进行连接 #5 时,行数从 10,000 增加到 320,000(举例说明数量如何增加),但在那之后我有更多连接因此数据流需要更长的时间才能完成。
我所做的是在连接之后添加一个聚合转换,以对我稍后将使用的字段进行分组,以我在数据库查询中使用 SELECT DISTINCT 的方式使用它,但仍然需要很长时间才能完成。
如何使此数据流 运行 更快?
我应该在每个连接之间使用聚合(并按字段分组)以避免重复,还是仅在行开始增加的连接后添加聚合(并按字段分组...)?
谢谢。
您能否切换到查找而不是加入,然后选择“运行 单行”。这一步提供了 SELECT DISTINCT 功能。
此外,要加快处理速度 end-to-end,请尝试提高内存优化并增加核心数。