Azure 数据工厂 - 无法预览数据

Azure Data Factory - Unable to preview data

我有一个在数据流中使用基本转换的 ADF 管道。因此,数据流非常简单,这里没有什么复杂的事情发生。只有几个查找和派生列。

直到今天早些时候它都运行良好,但从下午开始,每一步输出数据的预览都超时了。其中一个查找 tables 有大约 700 万条记录,但直到今天早些时候它仍然显示正常。我在调试设置中更改了行限制,但输出数据预览仍然超时,没有任何结果。 连派生列的数据预览都超时了

无论如何,我想到了 运行 管道,以查看最终 table 中加载的内容。但这失败了,因为显然派生列正在获取一些 NULL 值并将其传递给 SINK 的 table 结构中的 NOT NULL 字段。所以,现在我真的需要预览步骤输出。

数据预览花费了很长时间,然后出现超时错误。请建议是否有改变 ADF 性能的方法。

如果您的设置没有太多细节,很难准确回答。

但是,正如 MS 文档中针对 Internal server errors

所解释的

Successful execution of data flows depends on many factors, including the compute size/type, numbers of source/sinks to process, the partition specification, transformations involved, sizes of datasets, the data skewness and so on.

进一步查看故障排除提示here

There maybe a high number of null values or missing values which may be caused by having too few rows sampled. Try updating the debug row limit and refreshing the data.

有关更多指导,请参阅 Integration Runtime performance

来自doc推荐

转到调试设置,增加源行限制中的行数。 Select 一个 Azure IR,它有一个足够大的数据流集群来处理更多数据。

即使集成运行时已弹性分配计算资源,您也可以手动setup具有更高容量的新集成运行时。

另外,既然你提到了数百万条记录,当你有一个数据流并行执行的管道或者需要用大数据集测试的数据流时,选择“使用Activity Runtime”,以便服务可以使用您在数据流中选择的 Integration Runtime activity。这将允许数据流在多个集群上执行,并且可以适应您的并行数据流执行。