U-SQL 从 TXT 文件中提取错误

U-SQL Error Extracting from TXT file

当 运行 我的提取时,出现此错误:

Found invalid character-encoding for UTF-8 encoding in input. The input file may contain corrupted data, or the specified input encoding in the extractor does not match the actual file encoding. See the DETAILS section for a hexadecimal dump of the file segment containing the invalid character-encoding.

我无法通过下面的 U-SQL 脚本读取 UTF-8 字符数据。

@cgadmdomain =
EXTRACT 
row_id string,
orgarea_name string,
last_changed_time string,
start_date string,
stop_date string,
domain_name string,
gui_description string,
media string,
direction string,
distribution string,
threshold1 string,
threshold2 string


FROM @cgadmdomainInPath USING Extractors.Text(delimiter: ';');

文件有媒体列的数据 "Test Kö CB"。如果我删除了这条特定的记录,那么我的脚本 运行 没问题,如果我需要向参数添加任何内容,请告诉我

您确定文件是用 UTF-8 编码而不是其他编码吗?如果您使用字节级编辑器打开文件,您看到的字节序列是什么?

视情况而定,您可能必须将其设置为适当的 Windows-125x 编码或 Unicode。

如果您的数据例如使用 Windows-1252 编码,您可以使用以下语句提取它(请注意,我们目前仅支持 Unicode 编码旁边的 Windows-125x 编码):

  @data = 
    EXTRACT ...
    FROM ... 
    USING Extractors.Csv(encoding:System.Text.Encoding.GetEncoding("Windows-1252"));