使用数据工厂检查 CSV 文件中的数据
Checking data in CSV file with Data Factory
我正在实施一个管道,将 csv 文件从一个文件夹移动到数据湖中的另一个文件夹。但是,仅当 csv 文件符合有关定界符的某些条件时,才应执行此操作,字符串应位于引号之间,无 header,特定行定界符...
目前,我可以通过在数据集中设置连接条件(规则)来进行检查,然后将名称和列数与每个 csv 文件的预期相比进行分析。
但由于我使用的是获取元数据 activity,我实际上只检查了第一行,我无法保证其余行也符合条件(“不 header" 条件).
在这种情况下,我们必须检查完整文件的其他哪个可靠且合理的替代方案?知道该文件可能包含数百万行并且可以进行多次检查,直到文件被更正并满足条件。
提前致谢。
正如您之前 post 的回答所说,数据工厂默认文件编码是 UTF-8。您还可以通过 Azure Function、Azure Batch Service、Databricks Notebook、Synapse Notebook 等检查您的完整 CSV 文件
在Azure数据工厂中,我们只能使用column pattern检查指定列内容或所有列内容。
例如:
这是我的源 csv 文件。我将 age
列类型设置为 short
。
在DerivedColumn1
中,我使用列模式并输入$$>29
来确定第三列的值。
调试值如下:
在Azure数据工厂数据流中,我们只能做到这一点。
我正在实施一个管道,将 csv 文件从一个文件夹移动到数据湖中的另一个文件夹。但是,仅当 csv 文件符合有关定界符的某些条件时,才应执行此操作,字符串应位于引号之间,无 header,特定行定界符...
目前,我可以通过在数据集中设置连接条件(规则)来进行检查,然后将名称和列数与每个 csv 文件的预期相比进行分析。
但由于我使用的是获取元数据 activity,我实际上只检查了第一行,我无法保证其余行也符合条件(“不 header" 条件).
在这种情况下,我们必须检查完整文件的其他哪个可靠且合理的替代方案?知道该文件可能包含数百万行并且可以进行多次检查,直到文件被更正并满足条件。
提前致谢。
正如您之前 post 的回答所说,数据工厂默认文件编码是 UTF-8。您还可以通过 Azure Function、Azure Batch Service、Databricks Notebook、Synapse Notebook 等检查您的完整 CSV 文件
在Azure数据工厂中,我们只能使用column pattern检查指定列内容或所有列内容。
例如:
这是我的源 csv 文件。我将
age
列类型设置为short
。在
DerivedColumn1
中,我使用列模式并输入$$>29
来确定第三列的值。调试值如下:
在Azure数据工厂数据流中,我们只能做到这一点。