python 匹配区域指示字符 class 的正则表达式

Question

我在 Mac 上使用 python 2.7.10。表情符号中的标志由一对 Regional Indicator Symbols 表示。我想写一个 python 正则表达式来在一串表情符号标志之间插入空格。

我想在任何一对区域指标符号之间插入空格。像这样：

re.sub(re.compile(u"([\U0001F1E6-\U0001F1FF][\U0001F1E6-\U0001F1FF])"),
       r" ", 
       u"\U0001F1E7\U0001F1F7\U0001F1E7\U0001F1F7")

...这将导致：

u"\U0001F1E7\U0001F1F7 \U0001F1E7\U0001F1F7 "

...但是该代码给我一个错误：

sre_constants.error: bad character range

以下提示（我认为）出了什么问题，它表明 \U0001F1E7 在正则表达式中变成了两个“字符”：

re.search(re.compile(u"([\U0001F1E7])"),
          u"\U0001F1E7\U0001F1F7\U0001F1E7\U0001F1F7").group(0)

这导致：

u'\ud83c'

遗憾的是，我对 unicode 的理解太弱，无法取得进一步的进步。

Answer 1

我相信您在 Windows 或 Mac 中使用 Python 2.7，它具有窄 16 位 Unicode 构建 - Linux/Glibc 通常具有 32 位完整的 unicode，Python 3.5 在所有平台上都有广泛的 Unicode。

您看到的是一个代码被拆分成一对代理项。不幸的是，这也意味着您无法轻松地使用单个字符 class 来完成此任务。然而，这仍然是可能的。 U+1F1E6 () is \uD83C\uDDE6, and that of U+1F1FF () 的 UTF-16 表示是 \uD83C\uDDFF.

我什至无法访问这样的 Python 构建，但您可以尝试

\uD83C[\uDDE6-\uDDFF]

作为单个 [\U0001F1E6-\U0001F1FF] 的替代品，因此您的整个正则表达式将是

(\uD83C[\uDDE6-\uDDFF]\uD83C[\uDDE6-\uDDFF])

字符 class 不起作用的原因是它试图建立从第一个代理对的后半部分到第二个代理对的前半部分的范围 - 这失败了，因为范围的开头按字典顺序大于结尾。

但是，此正则表达式在 Linux 上仍然无效，您需要在那里使用原始表达式，因为 Linux 构建默认使用宽 unicode。

或者，将您的 Windows Python 升级到 3.5 或更高版本。

A python regex that matches the regional indicator character class