使用 python 解析没有反斜杠的 unicode 字符
Parsing unicode characters without backslash using python
有没有一种简单的方法可以使用 python3 解析像 u00e4 这样没有任何反斜杠字符的 unicode 字符。我想用正确的字符替换 unicode 序列。我有如下文字。
Hju00e4lper dig, Tru00e4ffa lu00e4kare, sjuksku00f6terskor och psykologer mm
我当然可以使用某种正则表达式匹配,但是使用 python3 有更简单的方法吗?
将re.sub
与将数字转换为字符的函数一起使用:
>>> import re
>>> s='Hju00e4lper dig, Tru00e4ffa lu00e4kare, sjuksku00f6terskor och psykologer mm'
>>> re.sub('u([0-9a-f]{4})',lambda m: chr(int(m.group(1),16)),s)
'Hjälper dig, Träffa läkare, sjuksköterskor och psykologer mm'
有没有一种简单的方法可以使用 python3 解析像 u00e4 这样没有任何反斜杠字符的 unicode 字符。我想用正确的字符替换 unicode 序列。我有如下文字。
Hju00e4lper dig, Tru00e4ffa lu00e4kare, sjuksku00f6terskor och psykologer mm
我当然可以使用某种正则表达式匹配,但是使用 python3 有更简单的方法吗?
将re.sub
与将数字转换为字符的函数一起使用:
>>> import re
>>> s='Hju00e4lper dig, Tru00e4ffa lu00e4kare, sjuksku00f6terskor och psykologer mm'
>>> re.sub('u([0-9a-f]{4})',lambda m: chr(int(m.group(1),16)),s)
'Hjälper dig, Träffa läkare, sjuksköterskor och psykologer mm'