删除 R 中的不间断 space 个字符

Removing non-breaking space characters in R

我有包含多个列和 50K 多个观察值的数据框。我们将其命名为 df1。其中一个变量是 PLATES(此处表示为 "y"),它包含城市中公交车的车牌号。我想将此数据框与另一个(df2)匹配,其中我也有车牌数据。我只想保留匹配记录。在查看来自 CSV 文件的 df1 中的数据时,我意识到对于 y,几个观察值在车牌号之前有符号对应于不间断 space。我该如何摆脱它,以便在我进行匹配时这不是问题。这里有一些代码可以帮助说明。假设您有 5 个车牌号:

y <- c(0740170, 0740111, 0740119, 0740115, 0740048)

但经过进一步检查

view(y)

您看到以下内容

<c2><a0>0740170
<c2><a0>0740111
<c2><a0>0740119
<c2><a0>0740115
<c2><a0>0740048

我试过这个,从这个 post https://blog.tonytsai.name/blog/2017-12-04-detecting-non-breaking-space-in-r/,但是没用

y <- gsub("\u00A0", " ", y, fixed = TRUE)

如果你能帮助我解决这个问题,我将不胜感激。谢谢!

不太确定这会有所帮助,因为我无法测试我的答案(因为我无法重现您的问题)。但是如果不间断 space 字符同时是非 ASCII 字符,那么解决方案是这样的:

y <- gsub("[^ -~]+", "", y)

该模式匹配任何非 ASCII 字符,并且替换将它们设置为空。希望这有帮助