集成运行时内存不足 ADF

Integration Runtime out of memory ADF

我正在使用数据流 activity 将 MongoDB 数据转换为 SQL。 截至目前,不支持 MongoDB/Atlas 作为数据流中的源。我正在将 MongoDB 数据转换为 AzureBlob 存储中的 JSON 文件,然后将该 json 文件用作数据流中的源。

对于大小为 around/more 大于 4Gb 的 json 源文件,每当我尝试导入投影时,Azure Integration Runtime 都会抛出以下错误。 我已将核心大小更改为 16+16,将群集类型更改为内存优化。

还有其他导入投影的方法吗?

由于您的源数据是一个大文件,其中包含许多可能具有复杂架构的行,您可以创建一个包含几行的临时文件,其中包含您要读取的所有列,然后执行以下操作:

1.数据流源调试设置->导入投影 使用 示例文件 以获得完整的架构。

现在,Select导入投影

2. 接下来,回滚调试设置以将源数据集用于剩余数据 movement/transformation.

如果你也想映射数据类型,你可以关注这个官方 MS recommendation 文档,因为 JSON 源中不能直接支持地图数据类型。

解决方法是: 我没有在单个 blob 中从 mongo 中提取所有数据,而是通过在“复制数据”Activity.

中使用限制和跳过选项提取小块(每个 500MB-1GB)

并将它们存储在不同的 JSON blob