在 Python 中打开和读取 UTF-16 文件
Opening and reading UTF-16 files in Python
最近我无法打开 Python 中的特定 UTF-16 编码文件。我尝试了以下方法:
import codecs
f = codecs.open('filename.data', 'r', 'utf-16-be')
contents = f.read()
但我收到以下错误:
UnicodeDecodeError: 'utf16' codec can't decode bytes in position 18-19: illegal UTF-16 surrogate
尝试读取文件内容后。我也试过强制 little-endian,但这并不好。文件头如下:
0x FE FF EE FF
我读过的表示UTF-16 Big Endian。我已经能够使用以下命令将文件内容读入原始字符串:
f = open('filename.data', 'rb')
raw = f.read()
hex = binascii.hexlify(raw)
这可以让我得到原始的十六进制,但问题是 - 有时这些文件是小端,有时它们是大端,所以我基本上只想在开始解析之前规范化数据,这我希望编解码器能够帮助我,但没有运气..
有人知道这里发生了什么吗?我会提供文件作为参考,但有一些敏感数据,所以很遗憾我不能。 Windows OS.
使用此文件
正如我上面提到的,我的最终目标是能够 open/read 这些文件并对其进行规范化,这样我就可以对所有文件使用相同的解析器,而不必编写一些解析器有一堆错误处理以防编码古怪。
编辑:根据要求,文件的前 32 个字节:
FE FF EE FF 11 22 00 00 03 00 00 00 01 00 00 00
92 EC DA 48 1B 00 00 00 63 00 3A 00 5C 00 77 00
在 utf16 编码的字符串开始之前,您似乎有一个 header 的 24 个二进制字节。所以你可以读取二进制文件然后解码:
with open(filename, "rb") as data:
header = data.read(24)
text = data.read().decode('utf-16-le')
但可能还有其他二进制部分。在不知道确切的文件格式的情况下,无法提供更多帮助。
最近我无法打开 Python 中的特定 UTF-16 编码文件。我尝试了以下方法:
import codecs
f = codecs.open('filename.data', 'r', 'utf-16-be')
contents = f.read()
但我收到以下错误:
UnicodeDecodeError: 'utf16' codec can't decode bytes in position 18-19: illegal UTF-16 surrogate
尝试读取文件内容后。我也试过强制 little-endian,但这并不好。文件头如下:
0x FE FF EE FF
我读过的表示UTF-16 Big Endian。我已经能够使用以下命令将文件内容读入原始字符串:
f = open('filename.data', 'rb')
raw = f.read()
hex = binascii.hexlify(raw)
这可以让我得到原始的十六进制,但问题是 - 有时这些文件是小端,有时它们是大端,所以我基本上只想在开始解析之前规范化数据,这我希望编解码器能够帮助我,但没有运气..
有人知道这里发生了什么吗?我会提供文件作为参考,但有一些敏感数据,所以很遗憾我不能。 Windows OS.
使用此文件正如我上面提到的,我的最终目标是能够 open/read 这些文件并对其进行规范化,这样我就可以对所有文件使用相同的解析器,而不必编写一些解析器有一堆错误处理以防编码古怪。
编辑:根据要求,文件的前 32 个字节:
FE FF EE FF 11 22 00 00 03 00 00 00 01 00 00 00
92 EC DA 48 1B 00 00 00 63 00 3A 00 5C 00 77 00
在 utf16 编码的字符串开始之前,您似乎有一个 header 的 24 个二进制字节。所以你可以读取二进制文件然后解码:
with open(filename, "rb") as data:
header = data.read(24)
text = data.read().decode('utf-16-le')
但可能还有其他二进制部分。在不知道确切的文件格式的情况下,无法提供更多帮助。