带有锐音符的字符的 Azure 数据工厂编码问题。例如:ú、á、é

Azure data factory encoding issue for characters with acute. For example: ú, á, é

Azure 数据工厂未正确编码特殊字符。

例如CSV文件中有wordsún,经过数据流转换后,转化为sún写入blob 存储容器。

我的容器中有许多不同编码类型的文件,数据流正在选择应用转换,这些编码类型如 UTF-8、ANSI 等

所以如果我在 DelimitedText 数据集中将我的编码部分设置为 WINDOWS-1252 那么它适用于 ANSI 编码类型的 csv 文件但是如果编码类型是 UTF-8 那么我必须将这部分设置为 UTF -8,则只有数据流为这些特殊字符生成正确的输出。 Dataset Image

我的 CSV 文件数据截图在这里:CSV file data

是否有任何通用的方法,无论文件的编码类型如何,我们都可以为这些字符生成正确的输出?

如果我理解正确的话,我明白了。对于数据工厂,我们必须首先选择一种编码类型来读取文件。如果你的文件有很多编码,你想在不同的编码之间保存数据,这限制了我的编码类型而不是数据工厂。如果输出编码无法解析数据,它将被转换为其他类型。数据工厂只为我们read/write数据提供这些编码类型。

数据工厂无法获取文件的编码类型,即使获取元数据处于活动状态。也许你可以在代码层面实现,尝试函数或笔记本,这是唯一的方法。

HTH.