是否有各种空格的编译:ascii 和非 ascii 空格?

Is there a compilation somewhere all kinds of whitespace: ascii and non-ascii whitespaces?

我正在处理不同来源(以及不同语言)的文档,并且我在处理不同的空格定义时遇到了很多麻烦。

例如 '\xa0' 不属于这个 wilipedia 列表 Whitespace

我想将它们全部替换为“ ”。例如,

text = re.sub(r'\xa0', ' ', text)

U+00A0 在您链接到的维基百科页面上,在 Unicode 列表中。

我会说 Unicode.org 有最终列表:http://unicode.org/cldr/utility/list-unicodeset.jsp?a=%5Cp%7Bwhitespace%7D