在 Python 中检查 unicode 字符串是否为 NFC 的有效方法?
Efficient way to check if unicode string is NFC in Python?
我想检查一个字符串是否已经是 NFC 形式。目前我这样做:
unicodedata.normalize('NFC', s) == s
我正在对大量字符串执行此操作,因此我希望效率更高。上面的方法看起来很浪费。它转换为 NFC,然后进行字符串比较。
有没有更有效的方法呢?我考虑过:
len(unicodedata.normalize('NFC', s)) == len(s)
这避免了字符串比较。但我不确定这是否总是正确的。如果 NFC 规范化总是更改非 NFC 字符串的长度,则此方法有效。这是一个有效的假设吗?
还有其他想法吗?
规范化不一定会改变字符串的长度。例如'Ω'
(U+2126)经过NFC后变为'Ω'
(U+03A9)。
Unicode 数据库中有规范化 "quick check" property 来测试字符是否已经规范化,但不幸的是 Python 的 unicodedata
模块没有公开它。然而,unicodedata.normalize()
确实使用这个 属性 来避免在字符串已经规范化的情况下做任何额外的工作——它只是 returns 输入字符串。
要访问此 属性,您需要自己从 Unicode 字符数据库编译 table,或者使用具有 Python 绑定的更广泛的 Unicode 库(如 PyICU).
从 Python 3.8 开始,它公开了所需的检查。引自 Python 文档:
unicodedata.is_normalized(form, unistr)
Return whether the Unicode string unistr is in the normal form 'form'. Valid values for form are ‘NFC’, ‘NFKC’, ‘NFD’, and ‘NFKD’.
New in version 3.8.
我希望一切都在 NFC 中,但是检查 NFD(所以我只能转换那些)不起作用:所有 NFC 字符串都通过了 NFD 检查!然后我的解决方案是测试字符串是否 不是 NFC,如果是则进行转换。
我想检查一个字符串是否已经是 NFC 形式。目前我这样做:
unicodedata.normalize('NFC', s) == s
我正在对大量字符串执行此操作,因此我希望效率更高。上面的方法看起来很浪费。它转换为 NFC,然后进行字符串比较。
有没有更有效的方法呢?我考虑过:
len(unicodedata.normalize('NFC', s)) == len(s)
这避免了字符串比较。但我不确定这是否总是正确的。如果 NFC 规范化总是更改非 NFC 字符串的长度,则此方法有效。这是一个有效的假设吗?
还有其他想法吗?
规范化不一定会改变字符串的长度。例如'Ω'
(U+2126)经过NFC后变为'Ω'
(U+03A9)。
Unicode 数据库中有规范化 "quick check" property 来测试字符是否已经规范化,但不幸的是 Python 的 unicodedata
模块没有公开它。然而,unicodedata.normalize()
确实使用这个 属性 来避免在字符串已经规范化的情况下做任何额外的工作——它只是 returns 输入字符串。
要访问此 属性,您需要自己从 Unicode 字符数据库编译 table,或者使用具有 Python 绑定的更广泛的 Unicode 库(如 PyICU).
从 Python 3.8 开始,它公开了所需的检查。引自 Python 文档:
unicodedata.is_normalized(form, unistr)
Return whether the Unicode string unistr is in the normal form 'form'. Valid values for form are ‘NFC’, ‘NFKC’, ‘NFD’, and ‘NFKD’.
New in version 3.8.
我希望一切都在 NFC 中,但是检查 NFD(所以我只能转换那些)不起作用:所有 NFC 字符串都通过了 NFD 检查!然后我的解决方案是测试字符串是否 不是 NFC,如果是则进行转换。