每个函数使用 dplyr 的 summarise_each 到 return 一行?
use dplyr's summarise_each to return one row per function?
我正在使用 dplyr 的 summarise_each 将函数应用于多列数据。一件好事是您可以一次应用多个功能。问题是,输出是一个只有一行的数据框,这很烦人。似乎它应该 return 与函数一样多的行,与汇总的列一样多的列。
library(dplyr)
default <-
iris %>%
summarise_each(funs(min, max), matches("Petal"))
这个returns
> default
Petal.Length_min Petal.Width_min Petal.Length_max Petal.Width_max
1 1 0.1 6.9 2.5
我更喜欢
library(reshape2)
desired <-
iris %>%
select(matches("Petal")) %>%
melt() %>%
group_by(variable) %>%
summarize(min=min(value),max=max(value)) %>%
t()
哪个 return 很接近(不是数据框,但你们都明白)
> desired
[,1] [,2]
variable "Petal.Length" "Petal.Width"
min "1.0" "0.1"
max "6.9" "2.5"
summarise_each 中是否有执行此操作的选项?如果没有,Hadley,你介意添加它吗?
据我所知,没有这样的说法。无论如何,这是一个输出整洁数据的解决方法,我认为这比拥有尽可能多的行和功能以及尽可能多的列作为汇总列更好。 (注意 add_rownames
需要 dplyr 0.4.0)
library("dplyr")
library("tidyr")
iris %>%
summarise_each(funs(min, max, mean, median), matches("Petal")) %>%
t %>%
as.data.frame %>%
add_rownames %>%
separate(rowname, into = c("feature", "fun"), sep = "_")
returns:
feature fun V1
1 Petal.Length min 1.000000
2 Petal.Width min 0.100000
3 Petal.Length max 6.900000
4 Petal.Width max 2.500000
5 Petal.Length mean 3.758000
6 Petal.Width mean 1.199333
7 Petal.Length median 4.350000
8 Petal.Width median 1.300000
您可以通过组合 dplyr
和 tidyr
包来实现类似的输出。
这些方面的东西可以提供帮助
library(dplyr)
library(tidyr)
iris %>%
select(matches("Petal")) %>%
summarise_each(funs(min, max)) %>%
gather(variable, value) %>%
separate(variable, c("var", "stat"), sep = "\_") %>%
spread(var, value)
## stat Petal.Length Petal.Width
## 1 max 6.9 2.5
## 2 min 1.0 0.1
一个选择是使用 purrr::map_df
(实际上 map_dfc
可以简化回 data.frame 和 bind_cols
,尽管 map_df
目前还可以)一个函数,它使每个函数的结果成为向量,即
library(tidyverse)
iris %>% select(contains('Petal')) %>%
map_dfc(~c(min(.x), max(.x))) %>%
mutate(stat = c('min', 'max')) # to add column of function names
#> # A tibble: 2 × 3
#> Petal.Length Petal.Width stat
#> <dbl> <dbl> <chr>
#> 1 1.0 0.1 min
#> 2 6.9 2.5 max
我正在使用 dplyr 的 summarise_each 将函数应用于多列数据。一件好事是您可以一次应用多个功能。问题是,输出是一个只有一行的数据框,这很烦人。似乎它应该 return 与函数一样多的行,与汇总的列一样多的列。
library(dplyr)
default <-
iris %>%
summarise_each(funs(min, max), matches("Petal"))
这个returns
> default
Petal.Length_min Petal.Width_min Petal.Length_max Petal.Width_max
1 1 0.1 6.9 2.5
我更喜欢
library(reshape2)
desired <-
iris %>%
select(matches("Petal")) %>%
melt() %>%
group_by(variable) %>%
summarize(min=min(value),max=max(value)) %>%
t()
哪个 return 很接近(不是数据框,但你们都明白)
> desired
[,1] [,2]
variable "Petal.Length" "Petal.Width"
min "1.0" "0.1"
max "6.9" "2.5"
summarise_each 中是否有执行此操作的选项?如果没有,Hadley,你介意添加它吗?
据我所知,没有这样的说法。无论如何,这是一个输出整洁数据的解决方法,我认为这比拥有尽可能多的行和功能以及尽可能多的列作为汇总列更好。 (注意 add_rownames
需要 dplyr 0.4.0)
library("dplyr")
library("tidyr")
iris %>%
summarise_each(funs(min, max, mean, median), matches("Petal")) %>%
t %>%
as.data.frame %>%
add_rownames %>%
separate(rowname, into = c("feature", "fun"), sep = "_")
returns:
feature fun V1
1 Petal.Length min 1.000000
2 Petal.Width min 0.100000
3 Petal.Length max 6.900000
4 Petal.Width max 2.500000
5 Petal.Length mean 3.758000
6 Petal.Width mean 1.199333
7 Petal.Length median 4.350000
8 Petal.Width median 1.300000
您可以通过组合 dplyr
和 tidyr
包来实现类似的输出。
这些方面的东西可以提供帮助
library(dplyr)
library(tidyr)
iris %>%
select(matches("Petal")) %>%
summarise_each(funs(min, max)) %>%
gather(variable, value) %>%
separate(variable, c("var", "stat"), sep = "\_") %>%
spread(var, value)
## stat Petal.Length Petal.Width
## 1 max 6.9 2.5
## 2 min 1.0 0.1
一个选择是使用 purrr::map_df
(实际上 map_dfc
可以简化回 data.frame 和 bind_cols
,尽管 map_df
目前还可以)一个函数,它使每个函数的结果成为向量,即
library(tidyverse)
iris %>% select(contains('Petal')) %>%
map_dfc(~c(min(.x), max(.x))) %>%
mutate(stat = c('min', 'max')) # to add column of function names
#> # A tibble: 2 × 3
#> Petal.Length Petal.Width stat
#> <dbl> <dbl> <chr>
#> 1 1.0 0.1 min
#> 2 6.9 2.5 max