Python 用重音字母拆分字符串
Python splitting a string with accented letters
我想将包含重音字符的字符串拆分为多个字符,而不会将重音和字母分开。
一个简单的例子是
>>> o = u"šnjiwgetit"
>>> print u" ".join(o)
s ̌ n j i w g e t i t
或
>>> print list(o)
[u's', u'\u030c', u'n', u'j', u'i', u'w', u'g', u'e', u't', u'i', u't']
而我希望结果是 š n j i w g e t i t
,以便重音位于辅音之上。
该解决方案应该适用于更难的字符,例如 h̭ɛ̮ŋkkɐᴅ
您可以使用正则表达式对字符进行分组。这是这样做的示例代码:
import re
pattern = re.compile(r'(\w[\u02F3\u1D53\u0300\u2013\u032E\u208D\u203F\u0311\u0323\u035E\u031C\u02FC\u030C\u02F9\u0328\u032D:\u02F4\u032F\u0330\u035C\u0302\u0327\u03572\u0308\u0351\u0304\u02F2\u0352\u0355\u00B7\u032C\u030B\u2019\u0339\u00B4\u0301\u02F1\u0303\u0306\u030A7\u0325\u0307\u0354`\u02F0]+|\w|\W)', re.UNICODE | re.IGNORECASE)
如果您缺少某些重音符号,请将它们添加到模式中。
然后,您可以按如下方式将单词拆分为字符。
print(list(pattern.findall('šnjiwgetit')))
['š', 'n', 'j', 'i', 'w', 'g', 'e', 't', 'i', 't'
print(list(pattern.findall('h̭ɛ̮ŋkkɐᴅ')))
['h̭', 'ɛ̮', 'ŋ', 'k', 'k', 'ɐ', 'ᴅ']
如果您使用 Python2,请在文件开头添加 from __future__ import unicode_literals
。
我想将包含重音字符的字符串拆分为多个字符,而不会将重音和字母分开。
一个简单的例子是
>>> o = u"šnjiwgetit"
>>> print u" ".join(o)
s ̌ n j i w g e t i t
或
>>> print list(o)
[u's', u'\u030c', u'n', u'j', u'i', u'w', u'g', u'e', u't', u'i', u't']
而我希望结果是 š n j i w g e t i t
,以便重音位于辅音之上。
该解决方案应该适用于更难的字符,例如 h̭ɛ̮ŋkkɐᴅ
您可以使用正则表达式对字符进行分组。这是这样做的示例代码:
import re
pattern = re.compile(r'(\w[\u02F3\u1D53\u0300\u2013\u032E\u208D\u203F\u0311\u0323\u035E\u031C\u02FC\u030C\u02F9\u0328\u032D:\u02F4\u032F\u0330\u035C\u0302\u0327\u03572\u0308\u0351\u0304\u02F2\u0352\u0355\u00B7\u032C\u030B\u2019\u0339\u00B4\u0301\u02F1\u0303\u0306\u030A7\u0325\u0307\u0354`\u02F0]+|\w|\W)', re.UNICODE | re.IGNORECASE)
如果您缺少某些重音符号,请将它们添加到模式中。
然后,您可以按如下方式将单词拆分为字符。
print(list(pattern.findall('šnjiwgetit')))
['š', 'n', 'j', 'i', 'w', 'g', 'e', 't', 'i', 't'
print(list(pattern.findall('h̭ɛ̮ŋkkɐᴅ')))
['h̭', 'ɛ̮', 'ŋ', 'k', 'k', 'ɐ', 'ᴅ']
如果您使用 Python2,请在文件开头添加 from __future__ import unicode_literals
。