如何删除 python 中的所有 unicode 表示

How to remove all unicode representations in python

我试图删除我文档中所有特殊字符的表示,例如文档的一部分说:“world\u2019s”,当我拆分它时它给出 ['world', '\u2019', 's'] 但我只需要单词(unicode 和 's' 已删除)。
我已经删除了所有标点符号,这适用于通常不显示在这些 un​​icode 表示形式上的实际标点符号。 而且我还尝试使用正则表达式来匹配所有以 '\' 开头的内容,但这似乎也不起作用。

import re

string = "world\u2019s"

print (re.sub(r"\b([^\s]+)\([^\s]+)\b",r'',str(string.encode('ascii', 'backslashreplace'), 'ascii')))

输出:

world

您可以将其应用于整个字符串文档,应该可以正常工作。

import re

string = "world\u2019s h\u2018e"

print (re.sub(r"\b([^\s]+)\([^\s]+)\b",r'',str(string.encode('ascii', 'backslashreplace'), 'ascii')))

输出:

world h