我如何知道何时会在 Azure 数据湖分析中触发并行性?

How do I know when parallelism will be triggered in Azure data lake analytics?

我有 Azure 数据湖分析作业,它使用 U-SQL 用户定义的运算符处理存储在 Azure 数据湖存储中的大约 380 万条记录。

在第一个 运行 中,我将并行度设置为 10,在第二个 运行 中,我使用的并行度等于 1。令人惊讶的是,我两次执行的作业持续时间相同(大约 1.5 小时).所以看起来我的工作没有触发并行性。是因为我使用了用户定义的运算符吗?我想知道如何确定何时触发并行性以及何时不触发并行性?

您使用的是 user-defined 函数还是自定义 UDO?

User-defined 函数不应妨碍并行性。自定义 UDO 可能取决于其内部结构。

作业图的顶点表示什么?

您可以通过查看作业图来分析并行化,如果您下载配置文件,则可以查看顶点图并使用“诊断”选项卡进一步深入研究。回放是否实际显示并行执行?

一般来说,系统应该根据您指定的限制、数据的大小和查询操作的复杂性以及查询处理器收集和估计的统计信息自动并行化您的作业。