在 Python 中检查 unicode 字符串是否为 NFC 的有效方法?

Efficient way to check if unicode string is NFC in Python?

我想检查一个字符串是否已经是 NFC 形式。目前我这样做:

unicodedata.normalize('NFC', s) == s

我正在对大量字符串执行此操作,因此我希望效率更高。上面的方法看起来很浪费。它转换为 NFC,然后进行字符串比较。

有没有更有效的方法呢?我考虑过:

len(unicodedata.normalize('NFC', s)) == len(s)

这避免了字符串比较。但我不确定这是否总是正确的。如果 NFC 规范化总是更改非 NFC 字符串的长度,则此方法有效。这是一个有效的假设吗?

还有其他想法吗?

规范化不一定会改变字符串的长度。例如'Ω'(U+2126)经过NFC后变为'Ω'(U+03A9)。

Unicode 数据库中有规范化 "quick check" property 来测试字符是否已经规范化,但不幸的是 Python 的 unicodedata 模块没有公开它。然而,unicodedata.normalize() 确实使用这个 属性 来避免在字符串已经规范化的情况下做任何额外的工作——它只是 returns 输入字符串。

要访问此 属性,您需要自己从 Unicode 字符数据库编译 table,或者使用具有 Python 绑定的更广泛的 Unicode 库(如 PyICU).

从 Python 3.8 开始,它公开了所需的检查。引自 Python 文档:

unicodedata.is_normalized(form, unistr)

Return whether the Unicode string unistr is in the normal form 'form'. Valid values for form are ‘NFC’, ‘NFKC’, ‘NFD’, and ‘NFKD’.

New in version 3.8.

我希望一切都在 NFC 中,但是检查 NFD(所以我只能转换那些)不起作用:所有 NFC 字符串都通过了 NFD 检查!然后我的解决方案是测试字符串是否 不是 NFC,如果是则进行转换。