如何获得 python ''.encode('unicode_escape') 到 return ascii 的转义码?

How can I get python ''.encode('unicode_escape') to return escape codes for ascii?

我正在尝试使用 python 字符串的 encode 方法来 return 字符的 unicode 转义码,如下所示:

>>> print( 'ф'.encode('unicode_escape').decode('utf8') )
\u0444

这适用于非 ascii 字符,但对于 ascii 字符,它只是 returnascii 字符本身:

>>> print( 'f'.encode('unicode_escape').decode('utf8') )
f

所需的输出将是 \u0066。此脚本用于教学目的。

如何获取所有字符的 unicode 十六进制代码?

ord可以用来做这个,根本不需要encoding/decoding:

>>> '"\U{:08x}"'.format(ord('f'))  # ...or \u{:04x} if you prefer
'"\U00000066"'
>>> eval(_)
'f'

您必须手动执行此操作;如果您假设所有输入都在 Unicode BMP 内,那么直接的正则表达式可能是最快的;这会将每个字符替换为 \uhhhh 转义:

import re

def unicode_escaped(s, _pattern=re.compile(r'[\x00-\uffff]')):
    return _pattern.sub(lambda m: '\u{:04x}'.format(
        ord(m.group(0))), s)

我已明确将模式限制为 BMP 以优雅地处理 non-BMP 点。

演示:

>>> print(unicode_escaped('foo bar ф'))
\u0066\u006f\u006f\u0020\u0062\u0061\u0072\u0020\u0444