使用 summarize_all() 查找 sparklyr 数据的中位数

Question

我正在尝试获取我使用 sparklyr 提取的 r 中数据的汇总统计信息，包括均值和中值。我可以通过在 dplyr::summarize() 步骤中手动输入所有内容来获取我的所有统计信息，但想知道是否可以使用 summarize_all() 语句来执行此操作。

手动尝试有效：

test<-data%>%
    dplyr::summarize(count=n(),
                     mean_c1=mean(column1,na.rm=TRUE),
                     mean_c2=mean(column2,na.rm=TRUE),
                     median_c1=percentile(column1,.5),
                     median_c2=percentile(column2,.5))

Summarize_all() 尝试无需为中位数调用百分位数即可工作。这让我对我的数据进行计数、平均值、最小值、最大值（vars 是列名称的向量）

test<-data%>%
    select(vars)%>%
    dplyr::summarize_all(list(count=~n(),mean=mean, min=min,max=max))

但是当我尝试将中位数添加到混合中时出现错误 - 它不再识别 percentile 命令，它是 Hive 函数而不是 r/dplyr 函数。（“继承错误（x，“fun_list”）：找不到对象'percentile'”）

test<-data%>%
    select(vars)%>%
    dplyr::summarize_all(list(count=~n(),mean=mean, min=min,max=max,median=percentile),probs=.5)

我尝试使用分位数而不是百分位数（这就是我对数据框执行此操作的方式），但是当我调用 'test' table.

时出错

是否可以使用 summarize_all() 命令获取 r 中火花 table 的中值？还是我需要更多的手动操作？

Answer 1

您是否已决定使用 summarize 来执行此操作？因为你已经在使用 tidyverse 并且包 psych 附带了它，所以你可以做

data %>% 
  select(vars) %>%
  psych::describe()

并得到或多或少相同的结果。

Answer 2

胶水包解决了我的问题。

library(rlang)
library(glue)

vars<-tbl_vars(data)
eq3<-glue("percentile({vars},.5)")%>%
    setNames(paste0(vars,"_median"))%>%
    lapply(parse_quosure)
test<-data%>%
    dplyr::summarize(!!!eq3)

使用 summarize_all() 查找 sparklyr 数据的中位数

Using summarize_all() to find median on sparklyr data

r

median

dplyr

sparklyr