加载和读取 JSON 文件的正确方法包含 Python 中的特殊字符

Question

我正在处理一个 JSON 文件，其中包含一些未知编码的字符串，如下例所示：

"L\u00c3\u00aa Nguy\u00e1\u00bb\u0085n Ph\u00c3\u00ba"

我已经在 Python 3.7 环境中使用 json.load() 函数加载了此文本，并尝试使用我在 Internet 上找到的一些方法 encode/decode 它，但我仍然无法获得正确的字符串如我所料。（在这种情况下，它必须是 Lê Nguyễn Phú）。

我的问题是，他们使用的是哪种编码方法以及如何在 Python 中以正确的方式解析这段文本？

因为JSON文件来自我没有处理的外部来源，所以我无法知道或在编码文本的过程中进行任何更改。

[更新]更多详情：

JSON 文件如下所示：

{
 "content":"L\u00c3\u00aa Nguy\u00e1\u00bb\u0085n Ph\u00c3\u00ba"
}

首先，我加载了 JSON 文件：

 with open(json_path, 'r') as f:
        data = json.load(f)

但是当我提取内容时，这不是我所期望的：

string = data.get('content', '')
print(string)

'LÃª Nguyá»\x85n PhÃº'

Answer 1

有人使用 "Lê Nguyễn Phú"，将其编码为 UTF-8，然后使用字节的结果序列并通过告诉 JSON 编码器撒谎这些字节是字符串的字符。然后 JSON 编码器通过对这些字符进行编码来协作产生垃圾。但它是可逆的垃圾。您可以使用类似

的方式来逆转此过程

json.loads(in_string).encode("latin_1").decode("utf_8")

从JSON解码字符串，从中提取字节（Latin-1中的256个符号与前256个Unicode代码点一一对应），然后重新- 将这些字节解码为 UTF-8。

这项技术的最大问题是它只有在您确定所有输入以这种方式出现乱码时才有效...没有完全可靠的查看方式在输入端决定是否应该对其应用这种损坏的解码。如果您尝试将其应用于包含高于 U+00FF 的代码点的有效编码字符串，它将崩溃。但是，如果您尝试将它应用于仅包含最多 U+00FF 代码点的有效编码字符串，它会将您完美的字符串变成另一种垃圾。

加载和读取 JSON 文件的正确方法包含 Python 中的特殊字符

The correct way to load and read JSON file contains special characters in Python

python

string

unicode

json

python-3.x