检测/替换 utf 字符

Detect / replace utf characters

我想检测 and/or 替换破坏我的标记化管道的奇怪的 utf、非表情符号字符,例如 \uf0fc,它呈现为 cup/glass:

该图像/代码不包含在我尝试过滤的 emojis package 中。

是否有描述所有这些字符的class? 有什么方法可以可靠地检测到它们吗?

这是 Private Use Area 中的角色。它在您的字体中恰好看起来像一个酒杯,但 Unicode 标准并未强制要求这些字体具有特定的外观或含义;它具有您赋予它的任何含义。这个想法是,无论你与谁交流,你都同意一个含义 - 私下,意思是不让 Unicode 联盟参与。

您可以使用标准 unicodedata 模块来检查字符是否来自 Co 类别,或者只是硬编码范围,如 .

所述