从相同数据开始的 dplyr 过滤器的不同结果

Different results from dplyr filter starting with identical data

当我试图回答 this question 时,我遇到了一些非常奇怪的行为。下面我定义了两次相同的数据,一次是 data.frame,第二次是 mutate。我检查结果是否相同。然后我尝试做同样的过滤操作。对于第一个数据集,这是有效的,但对于第二个(相同的)数据集,它失败了。任何人都可以弄清楚为什么。

造成这种差异的部分原因似乎是 ñ 的使用。但我不明白为什么这对第二个数据集来说是个问题,但对第一个数据集来说不是。

# define the same data twice
datos1 <- data.frame(año = 2001:2005, gedad = c(letters[1:5]), año2 = 2001:2005)  
datos2 <- data.frame(año = 2001:2005, gedad = c(letters[1:5])) %>% mutate(año2 = año) 
# check that they are identical
identical(datos1, datos2)
# do same operation
datos1 %>% filter(año2 >= 2003)
## año gedad año2
## 1 2003     c 2003
## 2 2004     d 2004
## 3 2005     e 2005
datos2 %>% filter(año2 >= 2003)
## Error in filter_impl(.data, dots) : object 'año2' not found

注意:我不认为这是与原始问题的重复,因为我问的是为什么会出现这种差异,而原始 post 询问的是如何修复它。

编辑:由于@Khashaa 无法重现错误,这里是我的 sessionInfo() 输出:

sessionInfo()
## R version 3.1.2 (2014-10-31)
## Platform: x86_64-w64-mingw32/x64 (64-bit)
## 
## locale:
## [1] LC_COLLATE=German_Switzerland.1252  LC_CTYPE=German_Switzerland.1252    LC_MONETARY=German_Switzerland.1252
## [4] LC_NUMERIC=C                        LC_TIME=German_Switzerland.1252    
## 
## attached base packages:
## [1] stats     graphics  grDevices utils     datasets  methods   base     
## 
## other attached packages:
## [1] dplyr_0.4.1
## 
## loaded via a namespace (and not attached):
## [1] assertthat_0.1  DBI_0.3.1       lazyeval_0.1.10 magrittr_1.5    parallel_3.1.2  Rcpp_0.11.4     tools_3.1.2  

通过将 R 的区域设置切换到 German_Switzerland.1252,我能够在具有希腊语系统区域设置的机器上重现该错误。我还注意到,在第二种情况下,错误和变量名称 都已更改 aρo2

似乎 mutate 在创建新列的名称时使用系统区域设置,如果它与控制台使用的区域设置不同,则会导致转换。我能够使用修改后的列名称查询 dato2

library(dplyr)
Sys.setlocale("LC_ALL","German_Switzerland.1252")
datos1 <- data.frame(año = 2001:2005, gedad = c(letters[1:5]), año2 = 2001:2005)  
datos2 <- data.frame(año = 2001:2005, gedad = c(letters[1:5])) %>% mutate(año2 = año) 

datos1 %>% filter(año2 >= 2003)
##   aρo gedad aρo2
## 1 2003     c 2003
## 2 2004     d 2004
## 3 2005     e 2005
datos2 %>% filter(año2 >= 2003)
##  Error in filter_impl(.data, dots) : object 'aρo2' not found
datos2 %>% filter("aρo2" >= 2003)
## aρo gedad aρo2
## 1 2001     a 2001
## 2 2002     b 2002
## 3 2003     c 2003
## 4 2004     d 2004
## 5 2005     e 2005

原问题中两种情况都出现ñ的原因可能是机器的系统区域设置为850,这是一个拉丁代码页,其中带有变音符号的字符与Windows 1252的代码不同。

"interesting" 的事情是:

names(datos2)[[1]]==names(datos1)[[1]]
## [1] TRUE

因为

names(datos1)[[1]]
## [1] "aρo"

names(datos2)[[1]]
## [1] "aρo"

这意味着 R 本身进行了一系列转换,而它的 filter 进行了正确的转换。

所有这一切的目的是 - 不要使用非英语字符,或确保您使用与机器相同的语言环境(相当脆弱)。

更新

Semi-official confirmation R 确实通过系统区域设置,因为它假定它实际上 系统使用的区域设置。 Windows 虽然始终使用 UTF-16 并且 "System Locale" 实际上是“区域设置”框中的标签所说的 - 用于遗留的非 Unicode 应用程序的语言环境。

如果我没记错的话,在 Windows 2000 和 NT 之前,"System Locale" 曾经是整个系统(包括 UI 语言等)的语言环境。现在你甚至可以为每个用户使用不同的 UI 语言,但这个名字已经固定了。