为什么 `mutate(across(...))` 和 `scale()` 将 [1] 添加到 header 列?
Why does `mutate(across(...))` with `scale()` adds [,1] to the column header?
这似乎太基础了,无法在搜索中找到,但也许我没有在 Google 上使用正确的搜索词。
我想规范化数字列。当我用 mutate(across(.., scale))
修改该列时,我将 [,1]
添加到 header。这是为什么?
library(dplyr, warn.conflicts = FALSE)
mtcars_mpg_only <-
mtcars %>%
as_tibble() %>%
select(mpg)
mtcars_mpg_only %>%
as_tibble() %>%
mutate(across(mpg, scale))
#> # A tibble: 32 x 1
#> mpg[,1]
#> <dbl>
#> 1 0.151
#> 2 0.151
#> 3 0.450
#> 4 0.217
#> 5 -0.231
#> 6 -0.330
#> 7 -0.961
#> 8 0.715
#> 9 0.450
#> 10 -0.148
#> # ... with 22 more rows
但是如果我使用不同的函数而不是 scale()
(例如,log()
),那么列 header 仍然是 as-is:
mtcars_mpg_only %>%
as_tibble() %>%
mutate(across(mpg, log))
#> # A tibble: 32 x 1
#> mpg
#> <dbl>
#> 1 3.04
#> 2 3.04
#> 3 3.13
#> 4 3.06
#> 5 2.93
#> 6 2.90
#> 7 2.66
#> 8 3.19
#> 9 3.13
#> 10 2.95
#> # ... with 22 more rows
事后我知道如何 remove/rename [,1]
,但我的问题是为什么要创建它?
这是因为 scale returns 是一个矩阵,而 log returns 是一个普通向量。 mpg[ 1] 实际上是一个 data.frame 内的矩阵。请参阅 ?scale 以了解其值的定义。
class(scale(mtcars$mpg))
## [1] "matrix" "array"
class(log(mtcars$mpg))
## [1] "numeric"
将矩阵转换为纯向量以避免这种情况,例如
mtcars_mpg_only %>%
mutate(across(mpg, ~ c(scale(.))))
# or extracting first column
mtcars_mpg_only %>%
mutate(across(mpg, ~ scale(.)[, 1]))
# or normalizing using mean and sd
mtcars_mpg_only %>%
mutate(across(mpg, ~ (. - mean(.)) / sd(.)))
# or without across
mtcars_mpg_only %>%
mutate(mpg = c(scale(mpg)))
# or using base R
mtcars_mpg_only |>
transform(mpg = c(scale(mpg)))
这似乎太基础了,无法在搜索中找到,但也许我没有在 Google 上使用正确的搜索词。
我想规范化数字列。当我用 mutate(across(.., scale))
修改该列时,我将 [,1]
添加到 header。这是为什么?
library(dplyr, warn.conflicts = FALSE)
mtcars_mpg_only <-
mtcars %>%
as_tibble() %>%
select(mpg)
mtcars_mpg_only %>%
as_tibble() %>%
mutate(across(mpg, scale))
#> # A tibble: 32 x 1
#> mpg[,1]
#> <dbl>
#> 1 0.151
#> 2 0.151
#> 3 0.450
#> 4 0.217
#> 5 -0.231
#> 6 -0.330
#> 7 -0.961
#> 8 0.715
#> 9 0.450
#> 10 -0.148
#> # ... with 22 more rows
但是如果我使用不同的函数而不是 scale()
(例如,log()
),那么列 header 仍然是 as-is:
mtcars_mpg_only %>%
as_tibble() %>%
mutate(across(mpg, log))
#> # A tibble: 32 x 1
#> mpg
#> <dbl>
#> 1 3.04
#> 2 3.04
#> 3 3.13
#> 4 3.06
#> 5 2.93
#> 6 2.90
#> 7 2.66
#> 8 3.19
#> 9 3.13
#> 10 2.95
#> # ... with 22 more rows
事后我知道如何 remove/rename [,1]
,但我的问题是为什么要创建它?
这是因为 scale returns 是一个矩阵,而 log returns 是一个普通向量。 mpg[ 1] 实际上是一个 data.frame 内的矩阵。请参阅 ?scale 以了解其值的定义。
class(scale(mtcars$mpg))
## [1] "matrix" "array"
class(log(mtcars$mpg))
## [1] "numeric"
将矩阵转换为纯向量以避免这种情况,例如
mtcars_mpg_only %>%
mutate(across(mpg, ~ c(scale(.))))
# or extracting first column
mtcars_mpg_only %>%
mutate(across(mpg, ~ scale(.)[, 1]))
# or normalizing using mean and sd
mtcars_mpg_only %>%
mutate(across(mpg, ~ (. - mean(.)) / sd(.)))
# or without across
mtcars_mpg_only %>%
mutate(mpg = c(scale(mpg)))
# or using base R
mtcars_mpg_only |>
transform(mpg = c(scale(mpg)))