无法读取 U-SQL Table
unable to read from U-SQL Table
我在 U-SQL 中创建了一个托管 table 并将数据加载到 table。当我尝试读取它时,它的显示状态 "preparing" 持续了大约 3 个小时,然后被 Yarn 取消了。
我尝试了 Rebuild table 命令和相同的场景。
它有审计数据,每当我处理来自数据湖的文件时,我都会将审计详细信息保存到该文件中 table。例如文件名、位置、记录数。到目前为止,我已经处理了大约 36,000 个文件。当我尝试用于最终审计报告时,它一直准备了 3 个小时并被 Yarn
取消
请提供更多信息:
- 如何将数据加载到 table?
- 您如何阅读这些文件?
- 您是否按照 release notes 中的建议使用 FastFileSetV2dot5 预览功能?
更新:
根据 "processed around 36k files" 的说法,我假设您将每个文件单独插入 table。这是不推荐的,它会导致 table 碎片化,进而导致代码生成期间的准备阶段 运行 超时。由于您已经有 36k table 片段,您应该删除 table,并使用我上面提到的快速文件集预览功能从文件集中指定的 36k 文件的 EXTRACT 中执行单个 INSERT。这样就可以避免这个问题了。
加载数据后,您需要重建 table 或分区以避免以后出现碎片。
我们正在努力提高可扩展性,并围绕重建零散的 table 添加更多功能,但它们最早不会在今年下半年推出。因此,避免这种碎片化很重要。
我在 U-SQL 中创建了一个托管 table 并将数据加载到 table。当我尝试读取它时,它的显示状态 "preparing" 持续了大约 3 个小时,然后被 Yarn 取消了。
我尝试了 Rebuild table 命令和相同的场景。
它有审计数据,每当我处理来自数据湖的文件时,我都会将审计详细信息保存到该文件中 table。例如文件名、位置、记录数。到目前为止,我已经处理了大约 36,000 个文件。当我尝试用于最终审计报告时,它一直准备了 3 个小时并被 Yarn
取消请提供更多信息:
- 如何将数据加载到 table?
- 您如何阅读这些文件?
- 您是否按照 release notes 中的建议使用 FastFileSetV2dot5 预览功能?
更新:
根据 "processed around 36k files" 的说法,我假设您将每个文件单独插入 table。这是不推荐的,它会导致 table 碎片化,进而导致代码生成期间的准备阶段 运行 超时。由于您已经有 36k table 片段,您应该删除 table,并使用我上面提到的快速文件集预览功能从文件集中指定的 36k 文件的 EXTRACT 中执行单个 INSERT。这样就可以避免这个问题了。
加载数据后,您需要重建 table 或分区以避免以后出现碎片。
我们正在努力提高可扩展性,并围绕重建零散的 table 添加更多功能,但它们最早不会在今年下半年推出。因此,避免这种碎片化很重要。