使用数据工厂检查 CSV 文件中的数据

Checking data in CSV file with Data Factory

我正在实施一个管道，将 csv 文件从一个文件夹移动到数据湖中的另一个文件夹。但是，仅当 csv 文件符合有关定界符的某些条件时，才应执行此操作，字符串应位于引号之间，无 header，特定行定界符...

目前，我可以通过在数据集中设置连接条件（规则）来进行检查，然后将名称和列数与每个 csv 文件的预期相比进行分析。

但由于我使用的是获取元数据 activity，我实际上只检查了第一行，我无法保证其余行也符合条件（“不 header" 条件).

在这种情况下，我们必须检查完整文件的其他哪个可靠且合理的替代方案？知道该文件可能包含数百万行并且可以进行多次检查，直到文件被更正并满足条件。

提前致谢。

正如您之前 post 的回答所说，数据工厂默认文件编码是 UTF-8。您还可以通过 Azure Function、Azure Batch Service、Databricks Notebook、Synapse Notebook 等检查您的完整 CSV 文件

在Azure数据工厂中，我们只能使用column pattern检查指定列内容或所有列内容。

例如：

在Azure数据工厂数据流中，我们只能做到这一点。