在 Python 中打开和读取 UTF-16 文件

Question

最近我无法打开 Python 中的特定 UTF-16 编码文件。我尝试了以下方法：

import codecs
f = codecs.open('filename.data', 'r', 'utf-16-be')
contents = f.read()

但我收到以下错误：

UnicodeDecodeError: 'utf16' codec can't decode bytes in position 18-19: illegal UTF-16 surrogate

尝试读取文件内容后。我也试过强制 little-endian，但这并不好。文件头如下：

0x FE FF EE FF

我读过的表示UTF-16 Big Endian。我已经能够使用以下命令将文件内容读入原始字符串：

f = open('filename.data', 'rb')
raw = f.read()
hex = binascii.hexlify(raw)

这可以让我得到原始的十六进制，但问题是 - 有时这些文件是小端，有时它们是大端，所以我基本上只想在开始解析之前规范化数据，这我希望编解码器能够帮助我，但没有运气..

有人知道这里发生了什么吗？我会提供文件作为参考，但有一些敏感数据，所以很遗憾我不能。 Windows OS.

使用此文件

正如我上面提到的，我的最终目标是能够 open/read 这些文件并对其进行规范化，这样我就可以对所有文件使用相同的解析器，而不必编写一些解析器有一堆错误处理以防编码古怪。

编辑：根据要求，文件的前 32 个字节：

FE FF EE FF 11 22 00 00 03 00 00 00 01 00 00 00 
92 EC DA 48 1B 00 00 00 63 00 3A 00 5C 00 77 00

Answer 1

在 utf16 编码的字符串开始之前，您似乎有一个 header 的 24 个二进制字节。所以你可以读取二进制文件然后解码：

with open(filename, "rb") as data:
    header = data.read(24)
    text = data.read().decode('utf-16-le')

但可能还有其他二进制部分。在不知道确切的文件格式的情况下，无法提供更多帮助。

Opening and reading UTF-16 files in Python