使用R将斜体或粗体的unicode字符转换为普通字符
convert unicode characters in italic or bold to normal characters using R
我有这个字符串:
string <- "Blah blah \U0001d617\U0001d622\U0001d63a\U0001d633\U0001d630\U0001d62d\U0001d62d \U0001d61a\U0001d631\U0001d626\U0001d624\U0001d62a\U0001d622\U0001d62d\U0001d62a\U0001d634\U0001d635 blah blah"
当我将它传递给 cat 时,我得到了这个:
cat("Blah blah \U0001d617\U0001d622\U0001d63a\U0001d633\U0001d630\U0001d62d\U0001d62d \U0001d61a\U0001d631\U0001d626\U0001d624\U0001d62a\U0001d622\U0001d62d\U0001d62a\U0001d634\U0001d635 blah blah")
> Blah blah blah blah
如何将字符串转换成这样:
> "Blah blah Payroll Specialist blah blah"
我看过这个post:R: Replacing foreign characters in a string,但我无法让它工作。
当我从网络服务中提取数据时出现问题,因此理想情况下,我正在寻找的解决方案是处理 many/all 可能的字母表示方式的解决方案。 (例如粗体、斜体等)
谢谢!
理论库stringi (install.packages("stringi")
) with stri_trans_nf*
functions (Perform or Check For Unicode Normalization); check normalization forms for Unicode text。
string <- "Blah blah \U0001d617\U0001d622\U0001d63a\U0001d633\U0001d630\U0001d62d\U0001d62d \U0001d61a\U0001d631\U0001d626\U0001d624\U0001d62a\U0001d622\U0001d62d\U0001d62a\U0001d634\U0001d635 blah blah"
library(stringi)
stri_trans_nfkc(string) # [1] "Blah blah Payroll Specialist blah blah"
stri_trans_nfkd(string) # [1] "Blah blah Payroll Specialist blah blah"
我有这个字符串:
string <- "Blah blah \U0001d617\U0001d622\U0001d63a\U0001d633\U0001d630\U0001d62d\U0001d62d \U0001d61a\U0001d631\U0001d626\U0001d624\U0001d62a\U0001d622\U0001d62d\U0001d62a\U0001d634\U0001d635 blah blah"
当我将它传递给 cat 时,我得到了这个:
cat("Blah blah \U0001d617\U0001d622\U0001d63a\U0001d633\U0001d630\U0001d62d\U0001d62d \U0001d61a\U0001d631\U0001d626\U0001d624\U0001d62a\U0001d622\U0001d62d\U0001d62a\U0001d634\U0001d635 blah blah")
> Blah blah blah blah
如何将字符串转换成这样:
> "Blah blah Payroll Specialist blah blah"
我看过这个post:R: Replacing foreign characters in a string,但我无法让它工作。
当我从网络服务中提取数据时出现问题,因此理想情况下,我正在寻找的解决方案是处理 many/all 可能的字母表示方式的解决方案。 (例如粗体、斜体等)
谢谢!
理论库stringi (install.packages("stringi")
) with stri_trans_nf*
functions (Perform or Check For Unicode Normalization); check normalization forms for Unicode text。
string <- "Blah blah \U0001d617\U0001d622\U0001d63a\U0001d633\U0001d630\U0001d62d\U0001d62d \U0001d61a\U0001d631\U0001d626\U0001d624\U0001d62a\U0001d622\U0001d62d\U0001d62a\U0001d634\U0001d635 blah blah"
library(stringi)
stri_trans_nfkc(string) # [1] "Blah blah Payroll Specialist blah blah"
stri_trans_nfkd(string) # [1] "Blah blah Payroll Specialist blah blah"