是否有各种空格的编译:ascii 和非 ascii 空格?
Is there a compilation somewhere all kinds of whitespace: ascii and non-ascii whitespaces?
我正在处理不同来源(以及不同语言)的文档,并且我在处理不同的空格定义时遇到了很多麻烦。
例如 '\xa0' 不属于这个 wilipedia 列表 Whitespace
我想将它们全部替换为“ ”。例如,
text = re.sub(r'\xa0', ' ', text)
U+00A0 在您链接到的维基百科页面上,在 Unicode 列表中。
我会说 Unicode.org 有最终列表:http://unicode.org/cldr/utility/list-unicodeset.jsp?a=%5Cp%7Bwhitespace%7D
我正在处理不同来源(以及不同语言)的文档,并且我在处理不同的空格定义时遇到了很多麻烦。
例如 '\xa0' 不属于这个 wilipedia 列表 Whitespace
我想将它们全部替换为“ ”。例如,
text = re.sub(r'\xa0', ' ', text)
U+00A0 在您链接到的维基百科页面上,在 Unicode 列表中。
我会说 Unicode.org 有最终列表:http://unicode.org/cldr/utility/list-unicodeset.jsp?a=%5Cp%7Bwhitespace%7D