R 中子集聚合函数的意外行为
Unexpected behavior in subsetting aggregate function in R
我有一个包含以下格式的数据框:
manufacturers pricegroup leads
harley <2500 #
honda <5000 #
... ... ..
我正在使用聚合函数通过以下方式提取数据:
aggregate( leads ~ manufacturer + pricegroup, data=leaddata,
FUN=sum, subset=(manufacturer==c("honda","harley")))
我注意到这没有返回正确的总数。我添加到子集的制造商越多,每个制造商的数字就变得越来越小。但是,如果我使用:
aggregate( leads ~ manufacturer + pricegroup, data=leaddata,
FUN=sum, subset=(manufacturer=="honda" | manufacturer=="harley"))
它 returns 正确的数字。对于我的生活,我无法弄清楚为什么。我只会使用 OR 运算符,除非我将动态传递制造商列表。关于为什么第一个构造不起作用的任何想法?更好的是,关于如何使其工作的任何想法?谢谢!
问题是 ==
在 "honda" 和 "harley" 的值之间交替,并与 "manufacturer" 变量相关位置的值进行比较。另一方面,%in%
(如 MrFlick 所建议)和 |
在决定标记哪些值之前检查整个 "manufacturer" 变量。
==
会将值回收到正在比较的长度。
通过示例可能更容易理解:
set.seed(1)
v1 <- sample(letters[1:5], 10, TRUE)
v2 <- c("a", "b") ## Will be recycled to rep(c("a", "b"), 5) when comparing with v1
data.frame(v1, v2,
`==` = v1 == v2,
`%in%` = v1 %in% v2,
`|` = v1 == "a" | v1 == "b",
check.names = FALSE)
# v1 v2 == %in% |
# 1 b a FALSE TRUE TRUE
# 2 b b TRUE TRUE TRUE
# 3 c a FALSE FALSE FALSE
# 4 e b FALSE FALSE FALSE
# 5 b a FALSE TRUE TRUE
# 6 e b FALSE FALSE FALSE
# 7 e a FALSE FALSE FALSE
# 8 d b FALSE FALSE FALSE
# 9 d a FALSE FALSE FALSE
# 10 a b FALSE TRUE TRUE
请注意,在 ==
列中,唯一的 TRUE
值是 "v1" 和 "v2" 的回收值相同的地方。
我有一个包含以下格式的数据框:
manufacturers pricegroup leads
harley <2500 #
honda <5000 #
... ... ..
我正在使用聚合函数通过以下方式提取数据:
aggregate( leads ~ manufacturer + pricegroup, data=leaddata,
FUN=sum, subset=(manufacturer==c("honda","harley")))
我注意到这没有返回正确的总数。我添加到子集的制造商越多,每个制造商的数字就变得越来越小。但是,如果我使用:
aggregate( leads ~ manufacturer + pricegroup, data=leaddata,
FUN=sum, subset=(manufacturer=="honda" | manufacturer=="harley"))
它 returns 正确的数字。对于我的生活,我无法弄清楚为什么。我只会使用 OR 运算符,除非我将动态传递制造商列表。关于为什么第一个构造不起作用的任何想法?更好的是,关于如何使其工作的任何想法?谢谢!
问题是 ==
在 "honda" 和 "harley" 的值之间交替,并与 "manufacturer" 变量相关位置的值进行比较。另一方面,%in%
(如 MrFlick 所建议)和 |
在决定标记哪些值之前检查整个 "manufacturer" 变量。
==
会将值回收到正在比较的长度。
通过示例可能更容易理解:
set.seed(1)
v1 <- sample(letters[1:5], 10, TRUE)
v2 <- c("a", "b") ## Will be recycled to rep(c("a", "b"), 5) when comparing with v1
data.frame(v1, v2,
`==` = v1 == v2,
`%in%` = v1 %in% v2,
`|` = v1 == "a" | v1 == "b",
check.names = FALSE)
# v1 v2 == %in% |
# 1 b a FALSE TRUE TRUE
# 2 b b TRUE TRUE TRUE
# 3 c a FALSE FALSE FALSE
# 4 e b FALSE FALSE FALSE
# 5 b a FALSE TRUE TRUE
# 6 e b FALSE FALSE FALSE
# 7 e a FALSE FALSE FALSE
# 8 d b FALSE FALSE FALSE
# 9 d a FALSE FALSE FALSE
# 10 a b FALSE TRUE TRUE
请注意,在 ==
列中,唯一的 TRUE
值是 "v1" 和 "v2" 的回收值相同的地方。