文本推特中的清洁口音

Cleaning accent in text twitter

我正在使用西班牙语 twitts 进行文本挖掘,我的问题是我有相同的单词但方式不同(有重音和无重音),例如:accion、acción。

我尝试使用编码:unicode "UTF-8",但不起作用。 我的图书馆 库(stringi) 图书馆(推特) 图书馆(TM) 图书馆(文字云) 图书馆(RColorBrewer)

你没有明确说明你试图对访问的推文做什么(保存在文本文件中,或作为数据框等)。如果你使用 UTF-8 编码,它基本上会将字母保留为这是。

 con <- file("C:/Dir1/sub_dir1/output/output.txt", encoding = "UTF-8")
 write(df, file = con)

但是,如果您试图将此重音字符更改为正常的等效字符 最简单的方法是使用 iconv

iconv( "acción", to='ASCII//TRANSLIT')
>[1] "accion"