我如何循环数据工厂中数据副本的结果
How do i loop over the results of a data copy in data factory
大家好,我正在努力处理数据管道。
我有一个管道,我首先从 api 中获取一些数据。
此数据除其他内容外还包含一列 id。
我已经设置了一个数据副本,并将 json 结果保存在一个 blob 中。
我接下来要做的是遍历所有 ID 并对这些 ID 进行 api 调用。
但我终究无法弄清楚如何遍历 ID。
我已经研究过使用查找和 for-each 但似乎查找仅限于 5000 个结果,我刚刚超过 70k。
有什么指点吗?
作为解决方法,您可以将 API 调用结果分区并存储到更小的 JSON 文件中。然后根据你拿到的文件个数使用多个pipeline,不断迭代实现。
因为 ForEach activity 可以进行最大 batchCount 50 的并行处理,最多 100,000 个项目。按照 workaround 查找查找部分。
Design a two-level pipeline where the outer pipeline iterates over an
inner pipeline, which retrieves data that doesn't exceed the maximum
rows or size.
示例:
在这里,我将从 API 获取详细信息并存储为多个 JSON
blob,以帮助将小块数据提供给下一个 LookupActivity.
使用 GetMetadata Activity 了解数量 的分区文件以迭代 和他们的名字 传递给参数化源数据集 的 LookupActivity 前进。
使用执行管道调用另一个管道,其中包含 LookupActivity 和 WebActivity调用 ids
在子管道中,您有一个 LookupActivity,其中包含要查看的参数化源文件。当 ForEach activity 迭代 时,对于每个文件,子管道都会在 LookupActivity 的源中触发一个文件.这解决了限制问题。
您可以将查找结果存储在变量中或按原样使用动态表达式。
大家好,我正在努力处理数据管道。
我有一个管道,我首先从 api 中获取一些数据。 此数据除其他内容外还包含一列 id。 我已经设置了一个数据副本,并将 json 结果保存在一个 blob 中。
我接下来要做的是遍历所有 ID 并对这些 ID 进行 api 调用。
但我终究无法弄清楚如何遍历 ID。 我已经研究过使用查找和 for-each 但似乎查找仅限于 5000 个结果,我刚刚超过 70k。
有什么指点吗?
作为解决方法,您可以将 API 调用结果分区并存储到更小的 JSON 文件中。然后根据你拿到的文件个数使用多个pipeline,不断迭代实现。
因为 ForEach activity 可以进行最大 batchCount 50 的并行处理,最多 100,000 个项目。按照 workaround 查找查找部分。
Design a two-level pipeline where the outer pipeline iterates over an inner pipeline, which retrieves data that doesn't exceed the maximum rows or size.
示例:
在这里,我将从 API 获取详细信息并存储为多个 JSON
blob,以帮助将小块数据提供给下一个 LookupActivity.
使用 GetMetadata Activity 了解数量 的分区文件以迭代 和他们的名字 传递给参数化源数据集 的 LookupActivity 前进。
使用执行管道调用另一个管道,其中包含 LookupActivity 和 WebActivity调用 ids
在子管道中,您有一个 LookupActivity,其中包含要查看的参数化源文件。当 ForEach activity 迭代 时,对于每个文件,子管道都会在 LookupActivity 的源中触发一个文件.这解决了限制问题。
您可以将查找结果存储在变量中或按原样使用动态表达式。