检测/替换 utf 字符
Detect / replace utf characters
我想检测 and/or 替换破坏我的标记化管道的奇怪的 utf、非表情符号字符,例如 \uf0fc
,它呈现为 cup/glass:
该图像/代码不包含在我尝试过滤的 emojis package 中。
是否有描述所有这些字符的class?
有什么方法可以可靠地检测到它们吗?
这是 Private Use Area 中的角色。它在您的字体中恰好看起来像一个酒杯,但 Unicode 标准并未强制要求这些字体具有特定的外观或含义;它具有您赋予它的任何含义。这个想法是,无论你与谁交流,你都同意一个含义 - 私下,意思是不让 Unicode 联盟参与。
您可以使用标准 unicodedata
模块来检查字符是否来自 Co
类别,或者只是硬编码范围,如 .
所述
我想检测 and/or 替换破坏我的标记化管道的奇怪的 utf、非表情符号字符,例如 \uf0fc
,它呈现为 cup/glass:
该图像/代码不包含在我尝试过滤的 emojis package 中。
是否有描述所有这些字符的class? 有什么方法可以可靠地检测到它们吗?
这是 Private Use Area 中的角色。它在您的字体中恰好看起来像一个酒杯,但 Unicode 标准并未强制要求这些字体具有特定的外观或含义;它具有您赋予它的任何含义。这个想法是,无论你与谁交流,你都同意一个含义 - 私下,意思是不让 Unicode 联盟参与。
您可以使用标准 unicodedata
模块来检查字符是否来自 Co
类别,或者只是硬编码范围,如