检查数据工厂中的 CSV 文件编码

Check the CSV file encoding in Data Factory

我正在实施一个管道,将 csv 文件从一个文件夹移动到数据湖中的另一个文件夹,条件是 CSV 文件以 UTF8 编码。

是否可以直接在数据 factory/data 流中检查 csv 文件的编码?

实际上,编码是在数据集的连接条件中设置的。如果 csv 文件的编码不同,在这种情况下会发生什么情况?

如果 csv 文件使用错误的编码暂存,数据库级别会发生什么情况?

提前致谢。

就目前而言,我们无法直接检查数据 Factory/Data 流中的文件编码。我们必须将编码类型设置为 read/write 测试文件:

参考:https://docs.microsoft.com/en-us/azure/data-factory/format-delimited-text#dataset-properties

数据工厂默认文件编码为UTF-8

就像@wBob说的,你需要在代码级别实现编码校验,比如Azure Function或者Notebook等等。在管道中调用这些活动。

HTH.