从字符串中删除 xml 个 unicode 字符

Removing xml unicode characters from strings

我正在努力从字符串中删除 xml unicode 字符。将 适配为 Python 3 失败:

s = 'fooСъбbar'
s.encode('ascii', errors='ignore')
# b'fooСъбbar'

我也试过 unescaping with xml.sax.saxutils 但没有成功:

unescape(s).encode('ascii', errors='ignore')
# b'fooСъbar'

感谢任何建议。

您可能会利用 html.unescape 来完成这项任务

import html
s = 'fooСъбbar'
s2 = html.unescape(s).encode('ascii', errors='ignore')
print(s2)

输出:

b'foobar'