使用数据工厂检查 CSV 文件中的数据

Checking data in CSV file with Data Factory

我正在实施一个管道,将 csv 文件从一个文件夹移动到数据湖中的另一个文件夹。但是,仅当 csv 文件符合有关定界符的某些条件时,才应执行此操作,字符串应位于引号之间,无 header,特定行定界符...

目前,我可以通过在数据集中设置连接条件(规则)来进行检查,然后将名称和列数与每个 csv 文件的预期相比进行分析。

但由于我使用的是获取元数据 activity,我实际上只检查了第一行,我无法保证其余行也符合条件(“不 header" 条件).

在这种情况下,我们必须检查完整文件的其他哪个可靠且合理的替代方案?知道该文件可能包含数百万行并且可以进行多次检查,直到文件被更正并满足条件。

提前致谢。

正如您之前 post 的回答所说,数据工厂默认文件编码是 UTF-8。您还可以通过 Azure Function、Azure Batch Service、Databricks Notebook、Synapse Notebook 等检查您的完整 CSV 文件

在Azure数据工厂中,我们只能使用column pattern检查指定列内容或所有列内容。

例如:

  1. 这是我的源 csv 文件。我将 age 列类型设置为 short

  2. DerivedColumn1中,我使用列模式并输入$$>29来确定第三列的值。

  3. 调试值如下:

在Azure数据工厂数据流中,我们只能做到这一点。