为什么每次与 dplyr 的变异一起使用时，摘要函数 return 都是相同的值？

Question

这是一个包含一列用户 ID 的数据框：

> head(df)
       uid
1 14070210
2 14080815
3 14091420

为了论证，我想创建一个包含用户 ID 平方根的新列，以及另一个包含用户 ID 散列的新列。所以我这样做：

df_mutated <- df %>%
              mutate(sqrt_uid = sqrt(uid), hashed_uid = digest(uid))

... 其中 digest() 来自 digest 包。

虽然平方根似乎有效，但摘要函数 returns 每个用户 ID 的值相同。

> head(df_mutated)
       uid sqrt_uid                       hashed_uid
1 14070210 3751.028 f8c4b39403e57d85cd1698d2353954d0
2 14080815 3752.441 f8c4b39403e57d85cd1698d2353954d0
3 14091420 3753.854 f8c4b39403e57d85cd1698d2353954d0

这对我来说很奇怪。如果没有 dplyr，digest() 函数 returns 不同输入的不同值。我对 dplyr 有什么不了解的地方？

谢谢

Answer 1

digest() 函数未向量化。因此，如果你传入一个向量，你会得到整个向量的一个值，而不是向量的每个元素的摘要。由于它 returns 一个值，因此该值会为 data.frame 的每一行回收。您可以创建自己的矢量化版本

vdigest <- Vectorize(digest)
df %>% mutate(sqrt_uid = sqrt(uid), hashed_uid = vdigest(uid))
#        uid sqrt_uid                       hashed_uid
# 1 14070210 3751.028 cc90019421220a24f75b5ed5daec36ff
# 2 14080815 3752.441 9f7f643940b692dd9c7effad439547e8
# 3 14091420 3753.854 89e6666fdfdbfb532b2d7940def9d47d

这与您单独传入每个矢量元素时得到的结果相匹配

digest(df$uid[1])
# [1] "cc90019421220a24f75b5ed5daec36ff"
digest(df$uid[3])
# [1] "89e6666fdfdbfb532b2d7940def9d47d"

为什么每次与 dplyr 的变异一起使用时，摘要函数 return 都是相同的值？

Why does the digest function return the same value every time when used with dplyr's mutate?

r

dplyr