base64 在 js 中编码并在 python 中解码。统一码问题
base64 encode in js and decode in python. Unicode issue
我在 js 中有以下字符串。
*"form-uploads/2015 Perry's Awärds Letter.jpg"*
它有一个 ä
符号。
当我使用 btoa(在 chrome 中)在 js 中对其进行编码时,我得到以下信息:
"Zm9ybS11cGxvYWRzLzIwMTUgUGVycnkncyBBd+RyZHMgTGV0dGVyLmpwZw=="
当我尝试在 python 中对其进行解码时,我得到以下信息:
In[16]: base64.b64decode('Zm9ybS11cGxvYWRzLzIwMTUgUGVycnkncyBBd+RyZHMgTGV0dGVyLmpwZw==')
Out[16]: "form-uploads/2015 Perry's Aw\xe4rds Letter.jpg"
所以 ä 迷路了,如果我尝试为 utf-8
解码该字符串,我会收到错误消息。
In[18]: base64.b64decode('Zm9ybS11cGxvYWRzLzIwMTUgUGVycnkncyBBd+RyZHMgTGV0dGVyLmpwZw==').decode('utf-8')
UnicodeDecodeError: 'utf8' codec can't decode byte 0xe4 in position 28: invalid continuation byte
解码后i
如何在python代码中得到正确的utf-8
ä
?
您需要使用 latin1
编码进行解码,然后打印 Unicode :
>>> print base64.b64decode(u'Zm9ybS11cGxvYWRzLzIwMTUgUGVycnkncyBBd+RyZHMgTGV0dGVyLmpwZw==').decode('latin1')
form-uploads/2015 Perry's Awärds Letter.jpg
尝试 latin1,它不能是 utf8,因为在 utf8 中没有 MSB 设置为 1 的 1 字节字符(如 \xe4)。
base64.b64decode('Zm9ybS11cGxvYWRzLzIwMTUgUGVycnkncyBBd+RyZHMgTGV0dGVyLmpwZw==').decode('latin1')
此外,btoa 通常不能很好地与 unicode 配合使用:
我在 js 中有以下字符串。
*"form-uploads/2015 Perry's Awärds Letter.jpg"*
它有一个 ä
符号。
当我使用 btoa(在 chrome 中)在 js 中对其进行编码时,我得到以下信息: "Zm9ybS11cGxvYWRzLzIwMTUgUGVycnkncyBBd+RyZHMgTGV0dGVyLmpwZw=="
当我尝试在 python 中对其进行解码时,我得到以下信息:
In[16]: base64.b64decode('Zm9ybS11cGxvYWRzLzIwMTUgUGVycnkncyBBd+RyZHMgTGV0dGVyLmpwZw==')
Out[16]: "form-uploads/2015 Perry's Aw\xe4rds Letter.jpg"
所以 ä 迷路了,如果我尝试为 utf-8
解码该字符串,我会收到错误消息。
In[18]: base64.b64decode('Zm9ybS11cGxvYWRzLzIwMTUgUGVycnkncyBBd+RyZHMgTGV0dGVyLmpwZw==').decode('utf-8')
UnicodeDecodeError: 'utf8' codec can't decode byte 0xe4 in position 28: invalid continuation byte
解码后i
如何在python代码中得到正确的utf-8
ä
?
您需要使用 latin1
编码进行解码,然后打印 Unicode :
>>> print base64.b64decode(u'Zm9ybS11cGxvYWRzLzIwMTUgUGVycnkncyBBd+RyZHMgTGV0dGVyLmpwZw==').decode('latin1')
form-uploads/2015 Perry's Awärds Letter.jpg
尝试 latin1,它不能是 utf8,因为在 utf8 中没有 MSB 设置为 1 的 1 字节字符(如 \xe4)。
base64.b64decode('Zm9ybS11cGxvYWRzLzIwMTUgUGVycnkncyBBd+RyZHMgTGV0dGVyLmpwZw==').decode('latin1')
此外,btoa 通常不能很好地与 unicode 配合使用: