base64 在 js 中编码并在 python 中解码。统一码问题

Question

我在 js 中有以下字符串。

*"form-uploads/2015 Perry's Awärds Letter.jpg"*

它有一个 ä 符号。

当我使用 btoa（在 chrome 中）在 js 中对其进行编码时，我得到以下信息： "Zm9ybS11cGxvYWRzLzIwMTUgUGVycnkncyBBd+RyZHMgTGV0dGVyLmpwZw=="

当我尝试在 python 中对其进行解码时，我得到以下信息：

In[16]: base64.b64decode('Zm9ybS11cGxvYWRzLzIwMTUgUGVycnkncyBBd+RyZHMgTGV0dGVyLmpwZw==')
Out[16]: "form-uploads/2015 Perry's Aw\xe4rds Letter.jpg"

所以 ä 迷路了，如果我尝试为 utf-8 解码该字符串，我会收到错误消息。

In[18]: base64.b64decode('Zm9ybS11cGxvYWRzLzIwMTUgUGVycnkncyBBd+RyZHMgTGV0dGVyLmpwZw==').decode('utf-8')
UnicodeDecodeError: 'utf8' codec can't decode byte 0xe4 in position 28: invalid continuation byte

解码后i如何在python代码中得到正确的utf-8ä？

Answer 1

您需要使用 latin1 编码进行解码，然后打印 Unicode :

>>> print base64.b64decode(u'Zm9ybS11cGxvYWRzLzIwMTUgUGVycnkncyBBd+RyZHMgTGV0dGVyLmpwZw==').decode('latin1')
form-uploads/2015 Perry's Awärds Letter.jpg

Answer 2

尝试 latin1，它不能是 utf8，因为在 utf8 中没有 MSB 设置为 1 的 1 字节字符（如 \xe4）。

base64.b64decode('Zm9ybS11cGxvYWRzLzIwMTUgUGVycnkncyBBd+RyZHMgTGV0dGVyLmpwZw==').decode('latin1')

此外，btoa 通常不能很好地与 unicode 配合使用：

https://developer.mozilla.org/en/docs/Web/API/WindowBase64/Base64_encoding_and_decoding#The_Unicode_Problem

base64 在 js 中编码并在 python 中解码。统一码问题

base64 encode in js and decode in python. Unicode issue

python

unicode

encoding

utf-8

python-2.x