使用 okinas 和其他夏威夷变音符号修改文本字符串

Munging text strings with okinas and other Hawaiian diacritical marks

我正在使用 R 清理来自夏威夷的街道地址。地址已输入Hawaiian diacritical marks。在 OSX 操作系统上使用 R 时,我可以轻松地使用 gsub() 删除变音符号;然而,PC 运行 64 位 Windows 机器 运行 R 显示奇怪的字符,例如“–”代替 okina (‘)。我怀疑这可能是编码问题,并包含如下编码参数:

address_file <- read.csv("file.csv", encoding="UTF-8")

虽然解决了大部分奇怪的编码问题,但 R 无法再识别某些变音符号,例如 okina。例如,我会使用以下语法,但不会删除 okina:

gsub("‘", "", hiplaces$name) 

有人可以帮助解决 PC 运行 64 位 Windows 上的这个问题吗?我怀疑这可能是 1) 编码问题,我选择了不正确的编码,或者 2) 可以 remove/replace 变音符号的 gsub 解决方案。我尝试清理的数据如下所示:

hiplaces <- data.frame(id = 1:3)
hiplaces$name <- c("‘Imiola Congregational Church", "‘Ōla‘a First Hawaiian    Congregational Church", "Nā‘ālehu Community Center")

gsub("‘", "", hiplaces$name) 

TIA。

由于您的最终结果是一组街道地址,您应该只保留字母数字字符就可以了。在此假设下,以下内容应该有效:

hiplaces <- data.frame(id = 1:3)
hiplaces$name <- c("‘Imiola Congregational Church",
                   "‘Ōla‘a First Hawaiian    Congregational Church",
                   "Nā‘ālehu Community Center")

hiplaces$name <- gsub("[^[:alnum:]///' ]", "", hiplaces$name)

> hiplaces$name
[1] "Imiola Congregational Church"
[2] "Olaa First Hawaiian    Congregational Church"
[3] "Naalehu Community Center"