U-SQL 从 TXT 文件中提取错误
U-SQL Error Extracting from TXT file
当 运行 我的提取时,出现此错误:
Found invalid character-encoding for UTF-8 encoding in input. The
input file may contain corrupted data, or the specified input encoding
in the extractor does not match the actual file encoding. See the
DETAILS section for a hexadecimal dump of the file segment containing
the invalid character-encoding.
我无法通过下面的 U-SQL 脚本读取 UTF-8 字符数据。
@cgadmdomain =
EXTRACT
row_id string,
orgarea_name string,
last_changed_time string,
start_date string,
stop_date string,
domain_name string,
gui_description string,
media string,
direction string,
distribution string,
threshold1 string,
threshold2 string
FROM @cgadmdomainInPath USING Extractors.Text(delimiter: ';');
文件有媒体列的数据 "Test Kö CB"。如果我删除了这条特定的记录,那么我的脚本 运行 没问题,如果我需要向参数添加任何内容,请告诉我
您确定文件是用 UTF-8 编码而不是其他编码吗?如果您使用字节级编辑器打开文件,您看到的字节序列是什么?
视情况而定,您可能必须将其设置为适当的 Windows-125x 编码或 Unicode。
如果您的数据例如使用 Windows-1252 编码,您可以使用以下语句提取它(请注意,我们目前仅支持 Unicode 编码旁边的 Windows-125x 编码):
@data =
EXTRACT ...
FROM ...
USING Extractors.Csv(encoding:System.Text.Encoding.GetEncoding("Windows-1252"));
当 运行 我的提取时,出现此错误:
Found invalid character-encoding for UTF-8 encoding in input. The input file may contain corrupted data, or the specified input encoding in the extractor does not match the actual file encoding. See the DETAILS section for a hexadecimal dump of the file segment containing the invalid character-encoding.
我无法通过下面的 U-SQL 脚本读取 UTF-8 字符数据。
@cgadmdomain =
EXTRACT
row_id string,
orgarea_name string,
last_changed_time string,
start_date string,
stop_date string,
domain_name string,
gui_description string,
media string,
direction string,
distribution string,
threshold1 string,
threshold2 string
FROM @cgadmdomainInPath USING Extractors.Text(delimiter: ';');
文件有媒体列的数据 "Test Kö CB"。如果我删除了这条特定的记录,那么我的脚本 运行 没问题,如果我需要向参数添加任何内容,请告诉我
您确定文件是用 UTF-8 编码而不是其他编码吗?如果您使用字节级编辑器打开文件,您看到的字节序列是什么?
视情况而定,您可能必须将其设置为适当的 Windows-125x 编码或 Unicode。
如果您的数据例如使用 Windows-1252 编码,您可以使用以下语句提取它(请注意,我们目前仅支持 Unicode 编码旁边的 Windows-125x 编码):
@data =
EXTRACT ...
FROM ...
USING Extractors.Csv(encoding:System.Text.Encoding.GetEncoding("Windows-1252"));