我如何循环数据工厂中数据副本的结果

How do i loop over the results of a data copy in data factory

大家好,我正在努力处理数据管道。

我有一个管道,我首先从 api 中获取一些数据。 此数据除其他内容外还包含一列 id。 我已经设置了一个数据副本,并将 json 结果保存在一个 blob 中。

我接下来要做的是遍历所有 ID 并对这些 ID 进行 api 调用。

但我终究无法弄清楚如何遍历 ID。 我已经研究过使用查找和 for-each 但似乎查找仅限于 5000 个结果,我刚刚超过 70k。

有什么指点吗?

作为解决方法,您可以将 API 调用结果分区并存储到更小的 JSON 文件中。然后根据你拿到的文件个数使用多个pipeline,不断迭代实现。

因为 ForEach activity 可以进行最大 batchCount 50 的并行处理,最多 100,000 个项目。按照 workaround 查找查找部分。

Design a two-level pipeline where the outer pipeline iterates over an inner pipeline, which retrieves data that doesn't exceed the maximum rows or size.

示例:

在这里,我将从 API 获取详细信息并存储为多个 JSON blob,以帮助将小块数据提供给下一个 LookupActivity.

使用 GetMetadata Activity 了解数量 的分区文件以迭代 和他们的名字 传递给参数化源数据集 LookupActivity 前进。

使用执行管道调用另一个管道,其中包含 LookupActivityWebActivity调用 ids

在子管道中,您有一个 LookupActivity,其中包含要查看的参数化源文件。当 ForEach activity 迭代 时,对于每个文件,子管道都会在 LookupActivity 的源中触发一个文件.这解决了限制问题。

您可以将查找结果存储在变量中或按原样使用动态表达式。