如何 discover/identify 来自特殊字符的代码

How to discover/identify a code from a special character

也许是个很愚蠢的问题

如何知道特殊字符的编码。我正在尝试格式化如下图所示的字符串

虽然,当我复制特殊字符时,我得到的只是空格。我尝试了不同的编码(utf8、latin1、iso)来替换这个字符,但 none 有效。

我只知道:

我的主要问题是:

经过多次尝试,我的解决方案是删除所有 unidecode 字符。我的正则表达式函数是(在 pyspark 中)

regexp_replace(col("NAME"), "[^a-zA-Z]", " ")

有了这个,我删除了所有 unidecode 字符并将其替换为空白 space