文本推特中的清洁口音
Cleaning accent in text twitter
我正在使用西班牙语 twitts 进行文本挖掘,我的问题是我有相同的单词但方式不同(有重音和无重音),例如:accion、acción。
我尝试使用编码:unicode "UTF-8",但不起作用。
我的图书馆
库(stringi)
图书馆(推特)
图书馆(TM)
图书馆(文字云)
图书馆(RColorBrewer)
你没有明确说明你试图对访问的推文做什么(保存在文本文件中,或作为数据框等)。如果你使用 UTF-8
编码,它基本上会将字母保留为这是。
con <- file("C:/Dir1/sub_dir1/output/output.txt", encoding = "UTF-8")
write(df, file = con)
但是,如果您试图将此重音字符更改为正常的等效字符
最简单的方法是使用 iconv
iconv( "acción", to='ASCII//TRANSLIT')
>[1] "accion"
我正在使用西班牙语 twitts 进行文本挖掘,我的问题是我有相同的单词但方式不同(有重音和无重音),例如:accion、acción。
我尝试使用编码:unicode "UTF-8",但不起作用。 我的图书馆 库(stringi) 图书馆(推特) 图书馆(TM) 图书馆(文字云) 图书馆(RColorBrewer)
你没有明确说明你试图对访问的推文做什么(保存在文本文件中,或作为数据框等)。如果你使用 UTF-8
编码,它基本上会将字母保留为这是。
con <- file("C:/Dir1/sub_dir1/output/output.txt", encoding = "UTF-8")
write(df, file = con)
但是,如果您试图将此重音字符更改为正常的等效字符
最简单的方法是使用 iconv
iconv( "acción", to='ASCII//TRANSLIT')
>[1] "accion"