从字符串中删除 xml 个 unicode 字符
Removing xml unicode characters from strings
我正在努力从字符串中删除 xml unicode 字符。将 适配为 Python 3 失败:
s = 'fooСъбbar'
s.encode('ascii', errors='ignore')
# b'fooСъбbar'
我也试过 unescaping with xml.sax.saxutils 但没有成功:
unescape(s).encode('ascii', errors='ignore')
# b'fooСъbar'
感谢任何建议。
您可能会利用 html.unescape
来完成这项任务
import html
s = 'fooСъбbar'
s2 = html.unescape(s).encode('ascii', errors='ignore')
print(s2)
输出:
b'foobar'
我正在努力从字符串中删除 xml unicode 字符。将
s = 'fooСъбbar'
s.encode('ascii', errors='ignore')
# b'fooСъбbar'
我也试过 unescaping with xml.sax.saxutils 但没有成功:
unescape(s).encode('ascii', errors='ignore')
# b'fooСъbar'
感谢任何建议。
您可能会利用 html.unescape
来完成这项任务
import html
s = 'fooСъбbar'
s2 = html.unescape(s).encode('ascii', errors='ignore')
print(s2)
输出:
b'foobar'