如何获得 python ''.encode('unicode_escape') 到 return ascii 的转义码?
How can I get python ''.encode('unicode_escape') to return escape codes for ascii?
我正在尝试使用 python 字符串的 encode
方法来 return 字符的 unicode 转义码,如下所示:
>>> print( 'ф'.encode('unicode_escape').decode('utf8') )
\u0444
这适用于非 ascii 字符,但对于 ascii 字符,它只是 returnascii 字符本身:
>>> print( 'f'.encode('unicode_escape').decode('utf8') )
f
所需的输出将是 \u0066
。此脚本用于教学目的。
如何获取所有字符的 unicode 十六进制代码?
ord
可以用来做这个,根本不需要encoding/decoding:
>>> '"\U{:08x}"'.format(ord('f')) # ...or \u{:04x} if you prefer
'"\U00000066"'
>>> eval(_)
'f'
您必须手动执行此操作;如果您假设所有输入都在 Unicode BMP 内,那么直接的正则表达式可能是最快的;这会将每个字符替换为 \uhhhh
转义:
import re
def unicode_escaped(s, _pattern=re.compile(r'[\x00-\uffff]')):
return _pattern.sub(lambda m: '\u{:04x}'.format(
ord(m.group(0))), s)
我已明确将模式限制为 BMP 以优雅地处理 non-BMP 点。
演示:
>>> print(unicode_escaped('foo bar ф'))
\u0066\u006f\u006f\u0020\u0062\u0061\u0072\u0020\u0444
我正在尝试使用 python 字符串的 encode
方法来 return 字符的 unicode 转义码,如下所示:
>>> print( 'ф'.encode('unicode_escape').decode('utf8') )
\u0444
这适用于非 ascii 字符,但对于 ascii 字符,它只是 returnascii 字符本身:
>>> print( 'f'.encode('unicode_escape').decode('utf8') )
f
所需的输出将是 \u0066
。此脚本用于教学目的。
如何获取所有字符的 unicode 十六进制代码?
ord
可以用来做这个,根本不需要encoding/decoding:
>>> '"\U{:08x}"'.format(ord('f')) # ...or \u{:04x} if you prefer
'"\U00000066"'
>>> eval(_)
'f'
您必须手动执行此操作;如果您假设所有输入都在 Unicode BMP 内,那么直接的正则表达式可能是最快的;这会将每个字符替换为 \uhhhh
转义:
import re
def unicode_escaped(s, _pattern=re.compile(r'[\x00-\uffff]')):
return _pattern.sub(lambda m: '\u{:04x}'.format(
ord(m.group(0))), s)
我已明确将模式限制为 BMP 以优雅地处理 non-BMP 点。
演示:
>>> print(unicode_escaped('foo bar ф'))
\u0066\u006f\u006f\u0020\u0062\u0061\u0072\u0020\u0444