如何检查是否分配了 Unicode 代码点?
How can I check whether a Unicode codepoint is assigned or not?
我正在使用 Python 3,我对 hex
、int
、chr
、ord
、'\uxxxx'
escape 和'\U00xxxxxx'
转义和 Unicode 有 1114111 个代码点...
如何检查 Unicode 代码点是否有效?也就是说,它被明确地映射到一个权威定义的字符。
例如codepoint 720是有效的;十六进制为0x2d0,U+02D0指向ː
:
In [135]: hex(720)
Out[135]: '0x2d0'
In [136]: '\u02d0'
Out[136]: 'ː'
888 无效:
In [137]: hex(888)
Out[137]: '0x378'
In [138]: '\u0378'
Out[138]: '\u0378'
并且 127744 有效:
In [139]: chr(127744)
Out[139]: ''
并且 0xe0000 无效:
In [140]: '\U000e0000'
Out[140]: '\U000e0000'
我想出了一个相当老套的解决方案:如果代码点有效,尝试将其转换为字符将导致解码字符或 '\xhh'
转义序列,否则它将 return 未解码的转义序列与原始序列完全相同,我可以检查 chr
的 return 值并检查它是否以 '\u'
或 '\U'
...
现在是 hacky 部分,chr
不解码无效代码点但它也不会引发异常,并且转义序列的长度为 1,因为它们被视为单个字符,我必须 repr
return 值并检查结果...
我已使用此方法识别所有无效代码点:
In [130]: invalid = []
In [131]: for i in range(1114112):
...: if any(f'{chr(i)!r}'.startswith(j) for j in ("'\U", "'\u")):
...: invalid.append(i)
In [132]: from pathlib import Path
In [133]: invalid = [(hex(i).removeprefix('0x'), i) for i in invalid]
In [134]: Path('D:/invalid_unicode.txt').write_text(',\n'.join(map(repr, invalid)))
Out[134]: 18574537
谁能提供更好的解决方案?
我认为 unicodedata.name()
可以满足您的要求。
我认为最直接的方法是使用 unicodedata.category()
。
OP 中的示例是未分配的代码点,其类别为 Cn
(“其他,未分配”)。
>>> import unicodedata as ud
>>> ud.category('\u02d0')
'Lm'
>>> ud.category('\u0378') # unassigned
'Cn'
>>> ud.category(chr(127744))
'So'
>>> ud.category('\U000e0000') # unassigned
'Cn'
它也适用于 ASCII 范围内的控制字符:
>>> ud.category('\x00')
'Cc'
无效代码点的其他类别(根据评论)是Cs
(“其他,代理”)和Co
(“其他,私人使用”):
>>> ud.category('\ud800') # lower surrogate
'Cs'
>>> ud.category('\uf8ff') # private use
'Co'
因此代码点有效性的函数(根据 OP 的定义)可能如下所示:
def is_valid(char):
return ud.category(char) not in ('Cn', 'Cs', 'Co')
重要警告: Python 的 unicodedata
模块嵌入了特定版本的 Unicode,因此信息可能已过时。
例如,在我安装的 Python 3.8 中,Unicode 版本是 12.1.0,因此它不知道在更高版本的 Unicode 中分配的代码点:
>>> ud.unidata_version
'12.1.0'
>>> ud.category('\U0001fae0') # melting face emoji added in Unicode v14
'Cn'
如果您需要比 Python 版本更新的 Unicode 版本,您可能需要直接从 Unicode 获取合适的 table。
您可能想要使用独立于 Python 核心 Unicode 数据库的 unicode-charnames 库。此软件包支持 Unicode 标准版本 14.0(2021 年 9 月 14 日发布)。
from unicode_charnames import charname, UNICODE_VERSION
assigned = []
control = []
private_use = []
surrogate = []
noncharacter = []
reserved = []
for x in range(0x110000):
name = charname(chr(x))
if not name.startswith("<"): # code points assigned to an abstract character
assigned.append(x)
elif name.startswith("<control"):
control.append(x)
elif name.startswith("<private"):
private_use.append(x)
elif name.startswith("<surrogate"):
surrogate.append(x)
elif name.startswith("<noncharacter"):
noncharacter.append(x)
else:
reserved.append(x)
print(f"# Unicode {UNICODE_VERSION}")
print(f"Code points assigned to an abstract character: {len(assigned):,}")
print(f"Unassigned code points: {len(reserved):,}")
print( "Code points with a normative function:")
print(f" Control characters -> {len(control):>7,}")
print(f" Private-use characters -> {len(private_use):>7,}")
print(f" Surrogate characters -> {len(surrogate):>7,}")
print(f" Noncharacters -> {len(noncharacter):>7,}")
输出:
# Unicode 14.0.0
Code points assigned to an abstract character: 144,697
Unassigned code points: 829,768
Code points with a normative function:
Control characters -> 65
Private-use characters -> 137,468
Surrogate characters -> 2,048
Noncharacters -> 66
您需要的文件是 DerivedName.txt,可在 Unicode 字符数据库 (UCD) 中找到。可以在 here.
找到版本 14.0 的文件
我正在使用 Python 3,我对 hex
、int
、chr
、ord
、'\uxxxx'
escape 和'\U00xxxxxx'
转义和 Unicode 有 1114111 个代码点...
如何检查 Unicode 代码点是否有效?也就是说,它被明确地映射到一个权威定义的字符。
例如codepoint 720是有效的;十六进制为0x2d0,U+02D0指向ː
:
In [135]: hex(720)
Out[135]: '0x2d0'
In [136]: '\u02d0'
Out[136]: 'ː'
888 无效:
In [137]: hex(888)
Out[137]: '0x378'
In [138]: '\u0378'
Out[138]: '\u0378'
并且 127744 有效:
In [139]: chr(127744)
Out[139]: ''
并且 0xe0000 无效:
In [140]: '\U000e0000'
Out[140]: '\U000e0000'
我想出了一个相当老套的解决方案:如果代码点有效,尝试将其转换为字符将导致解码字符或 '\xhh'
转义序列,否则它将 return 未解码的转义序列与原始序列完全相同,我可以检查 chr
的 return 值并检查它是否以 '\u'
或 '\U'
...
现在是 hacky 部分,chr
不解码无效代码点但它也不会引发异常,并且转义序列的长度为 1,因为它们被视为单个字符,我必须 repr
return 值并检查结果...
我已使用此方法识别所有无效代码点:
In [130]: invalid = []
In [131]: for i in range(1114112):
...: if any(f'{chr(i)!r}'.startswith(j) for j in ("'\U", "'\u")):
...: invalid.append(i)
In [132]: from pathlib import Path
In [133]: invalid = [(hex(i).removeprefix('0x'), i) for i in invalid]
In [134]: Path('D:/invalid_unicode.txt').write_text(',\n'.join(map(repr, invalid)))
Out[134]: 18574537
谁能提供更好的解决方案?
我认为 unicodedata.name()
可以满足您的要求。
我认为最直接的方法是使用 unicodedata.category()
。
OP 中的示例是未分配的代码点,其类别为 Cn
(“其他,未分配”)。
>>> import unicodedata as ud
>>> ud.category('\u02d0')
'Lm'
>>> ud.category('\u0378') # unassigned
'Cn'
>>> ud.category(chr(127744))
'So'
>>> ud.category('\U000e0000') # unassigned
'Cn'
它也适用于 ASCII 范围内的控制字符:
>>> ud.category('\x00')
'Cc'
无效代码点的其他类别(根据评论)是Cs
(“其他,代理”)和Co
(“其他,私人使用”):
>>> ud.category('\ud800') # lower surrogate
'Cs'
>>> ud.category('\uf8ff') # private use
'Co'
因此代码点有效性的函数(根据 OP 的定义)可能如下所示:
def is_valid(char):
return ud.category(char) not in ('Cn', 'Cs', 'Co')
重要警告: Python 的 unicodedata
模块嵌入了特定版本的 Unicode,因此信息可能已过时。
例如,在我安装的 Python 3.8 中,Unicode 版本是 12.1.0,因此它不知道在更高版本的 Unicode 中分配的代码点:
>>> ud.unidata_version
'12.1.0'
>>> ud.category('\U0001fae0') # melting face emoji added in Unicode v14
'Cn'
如果您需要比 Python 版本更新的 Unicode 版本,您可能需要直接从 Unicode 获取合适的 table。
您可能想要使用独立于 Python 核心 Unicode 数据库的 unicode-charnames 库。此软件包支持 Unicode 标准版本 14.0(2021 年 9 月 14 日发布)。
from unicode_charnames import charname, UNICODE_VERSION
assigned = []
control = []
private_use = []
surrogate = []
noncharacter = []
reserved = []
for x in range(0x110000):
name = charname(chr(x))
if not name.startswith("<"): # code points assigned to an abstract character
assigned.append(x)
elif name.startswith("<control"):
control.append(x)
elif name.startswith("<private"):
private_use.append(x)
elif name.startswith("<surrogate"):
surrogate.append(x)
elif name.startswith("<noncharacter"):
noncharacter.append(x)
else:
reserved.append(x)
print(f"# Unicode {UNICODE_VERSION}")
print(f"Code points assigned to an abstract character: {len(assigned):,}")
print(f"Unassigned code points: {len(reserved):,}")
print( "Code points with a normative function:")
print(f" Control characters -> {len(control):>7,}")
print(f" Private-use characters -> {len(private_use):>7,}")
print(f" Surrogate characters -> {len(surrogate):>7,}")
print(f" Noncharacters -> {len(noncharacter):>7,}")
输出:
# Unicode 14.0.0
Code points assigned to an abstract character: 144,697
Unassigned code points: 829,768
Code points with a normative function:
Control characters -> 65
Private-use characters -> 137,468
Surrogate characters -> 2,048
Noncharacters -> 66
您需要的文件是 DerivedName.txt,可在 Unicode 字符数据库 (UCD) 中找到。可以在 here.
找到版本 14.0 的文件