Azure Data Lake Storage 和数据工厂 - 临时 GUID 文件夹和文件

Azure Data Lake Storage and Data Factory - Temporary GUID folders and files

我正在使用 Azure Data Lake Store (ADLS),它的目标是从 Blob 存储读取并写入 ADLS 的 Azure 数据工厂 (ADF) 管道。在执行过程中,我注意到在输出 ADLS 中创建了一个源数据中不存在的文件夹。该文件夹有一个名称的 GUID,里面有许多文件,也是 GUID。该文件夹是临时的,大约 30 秒后它会消失。

这部分是 ADLS 元数据索引吗?它是 ADF 在处理过程中使用的东西吗?虽然它出现在门户的数据资源管理器中,但它是否通过 API 显示?我担心它可能会产生问题,即使它是一个临时结构。

任何见解表示赞赏 - Google 很少见。

因此,您在这里看到的是 Azure Data Lake Storage 执行的操作,无论您使用何种方法将数据上传和复制到其中。它不是数据工厂特有的,也不是您可以控制的。

对于大文件,它基本上与单个文件的 read/write 操作并行化。然后,您会在并行操作的每个线程的临时目录中获得多个较小的文件。完成后,该过程将线程连接到单个预期目标文件中。

比较:这类似于 PolyBase 在 SQLDW 中所做的,它的 8 个外部读取器以 512MB 的块命中文件。

我理解你的顾虑。我也曾与此作斗争,其中操作失败并且 不清理 临时文件。我的建议是在指定目标文件路径时对下游服务明确说明。

另一件事,我在使用 Visual Studio Data Lake 文件资源管理器工具上传大文件时遇到了问题。有时并行线程 没有正确连接成单个线程 并导致我的结构化数据集损坏。这是 4 - 8GB 区域中的文件。警告!

旁注。我发现 PowerShell 在处理上传到 Data Lake Store 时最可靠。

希望对您有所帮助。