将 Unicode 与字符串连接:print '£' + '1' 有效,但 print '£' + u'1' 会抛出 UnicodeDecodeError
Concatenating Unicode with string: print '£' + '1' works, but print '£' + u'1' throws UnicodeDecodeError
我观察到以下情况:
>>> print '£' + '1'
£1
>>> print '£' + u'1'
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 0: ordinal not in range(128)
>>> print u'£' + u'1'
£1
>>> print u'£' + '1'
£1
为什么 '£' + '1'
有效而 '£' + u'1'
无效?
我查看了类型:
>>> type('£' + '1')
<type 'str'>
>>> type('£' + u'1')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 0: ordinal not in range(128)
>>> type(u'£' + u'1')
<type 'unicode'>
这也让我很困惑。如果 '£' + '1'
是 str
而不是 unicode
,为什么它能在我的终端上正确打印?它不应该打印类似 '\xc2\xa31'?
的东西吗?
添加到组合中,我还观察到以下内容:
>>> u'£' + '1'
u'\xa31'
>>> type('1')
<type 'str'>
>>> type(u'£')
<type 'unicode'>
>>> print u'£' + '1'
£1
为什么 u'£' + '1'
不能正确打印出 £
符号,而 print u'£' + '1'
可以?是不是因为前者用的是repr
,而后者用的是str
?
此外,为什么 unicode
和 str
的连接在这种情况下有效,但在 '£' + u'1'
情况下却无效?
您正在混合 对象类型。
'£'
是字节串,包含编码数据。这些字节恰好代表您的终端或控制台中的井号既不存在也不存在,它可能只是图像中的像素。您的终端或控制台配置为生成和接受 UTF-8 数据,因此该字节串的 actual 内容是 two 字节 C2 和 A3 , 以十六进制表示时。
另一方面,u'1'
是 Unicode 字符串。它是明确的文本数据。如果您想将其他数据连接到它,它也应该是 Unicode。如果您尝试这样做,Python 2 将使用默认的 ASCII 编解码器自动将 str
字节解码为 Unicode。
但是,'£'
字节串不能解码为 ASCII。 可以解码为UTF-8;显式解码字节,因为我们在这里知道正确的编解码器:
print '£'.decode('utf8') + u'1'
将字节写入终端或控制台时,是您的终端或控制台解释字节并理解它们。如果您将 unicode
对象写入终端,sys.stdout
对象负责编码,将文本转换为您的终端或控制台可以理解的字节。
这同样适用于接受输入; sys.stdin
流产生字节,当您使用 u'£'
语法创建 Unicode 对象时,Python 可以透明地解码这些字节。您在键盘上键入字符,终端或控制台会将其转换为 UTF-8 字节,并写入 Python 进行解释。
用 print
写 '\xc2\xa3'
是个巧合。您可以获取 unicode
对象,将其编码为 不同的 编解码器,并以垃圾输出结束:
>>> print u'£1'.encode('latin-1')
?1
我的 Mac 终端将为 £
符号写入的数据转换为 ?
,因为 A3 字节(井号的 Latin-1 代码点)没有当解释为 UTF-8 时映射到任何内容。
Python 根据 locale.getpreferredencoding()
function 确定终端或控制台编解码器,您可以通过 sys.stdout.encoding
和 sys.stdin.encoding
属性观察您的终端或控制台使用的通信内容:
>>> import sys
>>> sys.stdout.encoding
'UTF-8'
最后但同样重要的是,您不应将 打印 与解释器在交互模式下回显的表示相混淆。解释器使用 repr()
函数显示表达式的结果,该函数是一种调试工具,它试图尽可能地使用 仅 ASCII 字符生成 Python 文字表示法。对于 Unicode 值,这意味着任何 不可打印、非 ASCII 字符 都使用转义序列反映。这使得该值适用于复制和粘贴,而无需支持 ASCII 的介质。
例如,str
的 repr()
结果使用 \n
换行,\xhh
十六进制转义字节没有专用转义序列,超出可打印范围.此外,对于 unicode
对象,Latin-1 范围之外的代码点用 \uhhhh
和 \Uhhhhhhhh
转义序列表示,具体取决于它们是否是基本多语言平面的一部分:
>>> u'''\
... A multiline string to show newlines
... can contain £ latin characters
... or emoji !
... '''
u'A multiline string to show newlines\ncan contain \xa3 latin characters\nor emoji \U0001f4a9!\n'
>>> print _
A multiline string to show newlines
can contain £ latin characters
or emoji !
我观察到以下情况:
>>> print '£' + '1'
£1
>>> print '£' + u'1'
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 0: ordinal not in range(128)
>>> print u'£' + u'1'
£1
>>> print u'£' + '1'
£1
为什么 '£' + '1'
有效而 '£' + u'1'
无效?
我查看了类型:
>>> type('£' + '1')
<type 'str'>
>>> type('£' + u'1')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 0: ordinal not in range(128)
>>> type(u'£' + u'1')
<type 'unicode'>
这也让我很困惑。如果 '£' + '1'
是 str
而不是 unicode
,为什么它能在我的终端上正确打印?它不应该打印类似 '\xc2\xa31'?
添加到组合中,我还观察到以下内容:
>>> u'£' + '1'
u'\xa31'
>>> type('1')
<type 'str'>
>>> type(u'£')
<type 'unicode'>
>>> print u'£' + '1'
£1
为什么 u'£' + '1'
不能正确打印出 £
符号,而 print u'£' + '1'
可以?是不是因为前者用的是repr
,而后者用的是str
?
此外,为什么 unicode
和 str
的连接在这种情况下有效,但在 '£' + u'1'
情况下却无效?
您正在混合 对象类型。
'£'
是字节串,包含编码数据。这些字节恰好代表您的终端或控制台中的井号既不存在也不存在,它可能只是图像中的像素。您的终端或控制台配置为生成和接受 UTF-8 数据,因此该字节串的 actual 内容是 two 字节 C2 和 A3 , 以十六进制表示时。
u'1'
是 Unicode 字符串。它是明确的文本数据。如果您想将其他数据连接到它,它也应该是 Unicode。如果您尝试这样做,Python 2 将使用默认的 ASCII 编解码器自动将 str
字节解码为 Unicode。
但是,'£'
字节串不能解码为 ASCII。 可以解码为UTF-8;显式解码字节,因为我们在这里知道正确的编解码器:
print '£'.decode('utf8') + u'1'
将字节写入终端或控制台时,是您的终端或控制台解释字节并理解它们。如果您将 unicode
对象写入终端,sys.stdout
对象负责编码,将文本转换为您的终端或控制台可以理解的字节。
这同样适用于接受输入; sys.stdin
流产生字节,当您使用 u'£'
语法创建 Unicode 对象时,Python 可以透明地解码这些字节。您在键盘上键入字符,终端或控制台会将其转换为 UTF-8 字节,并写入 Python 进行解释。
用 print
写 '\xc2\xa3'
是个巧合。您可以获取 unicode
对象,将其编码为 不同的 编解码器,并以垃圾输出结束:
>>> print u'£1'.encode('latin-1')
?1
我的 Mac 终端将为 £
符号写入的数据转换为 ?
,因为 A3 字节(井号的 Latin-1 代码点)没有当解释为 UTF-8 时映射到任何内容。
Python 根据 locale.getpreferredencoding()
function 确定终端或控制台编解码器,您可以通过 sys.stdout.encoding
和 sys.stdin.encoding
属性观察您的终端或控制台使用的通信内容:
>>> import sys
>>> sys.stdout.encoding
'UTF-8'
最后但同样重要的是,您不应将 打印 与解释器在交互模式下回显的表示相混淆。解释器使用 repr()
函数显示表达式的结果,该函数是一种调试工具,它试图尽可能地使用 仅 ASCII 字符生成 Python 文字表示法。对于 Unicode 值,这意味着任何 不可打印、非 ASCII 字符 都使用转义序列反映。这使得该值适用于复制和粘贴,而无需支持 ASCII 的介质。
例如,str
的 repr()
结果使用 \n
换行,\xhh
十六进制转义字节没有专用转义序列,超出可打印范围.此外,对于 unicode
对象,Latin-1 范围之外的代码点用 \uhhhh
和 \Uhhhhhhhh
转义序列表示,具体取决于它们是否是基本多语言平面的一部分:
>>> u'''\
... A multiline string to show newlines
... can contain £ latin characters
... or emoji !
... '''
u'A multiline string to show newlines\ncan contain \xa3 latin characters\nor emoji \U0001f4a9!\n'
>>> print _
A multiline string to show newlines
can contain £ latin characters
or emoji !