如何使用正则表达式从 R 中的字符串中删除像 ன 这样的特殊字符
How to remove special chars like ன from string in R using regex
如何使用正则表达式从 R 数据框中的推文中删除以下字符
அனà¯à®ªà¯à®®à¯ பாசமà¯à®®à¯ நி ®¡ ஡ வாழà¯à®¤à¯à®¤à¯à®•à¯à®•ள௠…
提前致谢。 :)
Rushabh 给出了答案。您可以使用 iconv
将具有一种编码的字符串转换为另一种编码,并将不可转换的字符替换为参数 sub
:
中给出的值
foo <- "அனà¯à®ªà¯à®®à¯ பாசமà¯à®®à¯ நிறைநà¯à®¤ இஸà¯à®²à®¾à®®à®¿à®¯ சகோதர சகோதரிகள௠கà¯à®•௠ரமà¯à®œà®¾à®©à¯ நலà¯à®µà®¾à®´à¯à®¤à¯à®¤à¯à®•à¯à®•ள௠…"
iconv(foo, from = "UTF-8", to = "ASCII", sub = "")
输出:
[1] "aaaaaaa aaasaaaa aaaaaaa aaaaaaaa asaaaa asaaaaaaaa aaaa aaaaaaa aaaaaaaaaaaaaaaa a"
如何使用正则表达式从 R 数据框中的推文中删除以下字符
அனà¯à®ªà¯à®®à¯ பாசமà¯à®®à¯ நி ®¡ ஡ வாழà¯à®¤à¯à®¤à¯à®•à¯à®•ள௠…
提前致谢。 :)
Rushabh 给出了答案。您可以使用 iconv
将具有一种编码的字符串转换为另一种编码,并将不可转换的字符替换为参数 sub
:
foo <- "அனà¯à®ªà¯à®®à¯ பாசமà¯à®®à¯ நிறைநà¯à®¤ இஸà¯à®²à®¾à®®à®¿à®¯ சகோதர சகோதரிகள௠கà¯à®•௠ரமà¯à®œà®¾à®©à¯ நலà¯à®µà®¾à®´à¯à®¤à¯à®¤à¯à®•à¯à®•ள௠…"
iconv(foo, from = "UTF-8", to = "ASCII", sub = "")
输出:
[1] "aaaaaaa aaasaaaa aaaaaaa aaaaaaaa asaaaa asaaaaaaaa aaaa aaaaaaa aaaaaaaaaaaaaaaa a"