如何 discover/identify 来自特殊字符的代码
How to discover/identify a code from a special character
也许是个很愚蠢的问题
如何知道特殊字符的编码。我正在尝试格式化如下图所示的字符串
虽然,当我复制特殊字符时,我得到的只是空格。我尝试了不同的编码(utf8、latin1、iso)来替换这个字符,但 none 有效。
我只知道:
- 字符串从 GeNeXuS 代码
插入sql服务器
- 从 sql 服务器检索字符串并使用 spark
写入 csv
- ** 朋友告诉我这个特殊字符在 GeNexuS 上可能是 shift + enter
我的主要问题是:
- 我怎样才能发现这是什么类型的角色?知道它是什么类型后,我可以使用替换或正则表达式函数将其从我的 spark DF 中删除。
经过多次尝试,我的解决方案是删除所有 unidecode 字符。我的正则表达式函数是(在 pyspark 中)
regexp_replace(col("NAME"), "[^a-zA-Z]", " ")
有了这个,我删除了所有 unidecode 字符并将其替换为空白 space
也许是个很愚蠢的问题
如何知道特殊字符的编码。我正在尝试格式化如下图所示的字符串
虽然,当我复制特殊字符时,我得到的只是空格。我尝试了不同的编码(utf8、latin1、iso)来替换这个字符,但 none 有效。
我只知道:
- 字符串从 GeNeXuS 代码 插入sql服务器
- 从 sql 服务器检索字符串并使用 spark 写入 csv
- ** 朋友告诉我这个特殊字符在 GeNexuS 上可能是 shift + enter
我的主要问题是:
- 我怎样才能发现这是什么类型的角色?知道它是什么类型后,我可以使用替换或正则表达式函数将其从我的 spark DF 中删除。
经过多次尝试,我的解决方案是删除所有 unidecode 字符。我的正则表达式函数是(在 pyspark 中)
regexp_replace(col("NAME"), "[^a-zA-Z]", " ")
有了这个,我删除了所有 unidecode 字符并将其替换为空白 space