如何在sparkr中使用avg、max等统计函数

how to use statistics functions like avg, max and so on in sparkr

我正在使用 SparkR。现在我在使用 avg、max 等统计函数时遇到了问题。首先,我读了一个 json 文件,如:

> a <- read.df(sqlContext, "/home/fengchen/mine/mydata/try.json", "json")  

那么,a是spark中的dataframe,而不是普通的R dataframe。我正在尝试 https://spark.apache.org/docs/1.5.1/api/R/ 中的一些函数,但是当我使用像 avg、max、min 这样的函数时,我什么也得不到。在 RStudio 上,它显示为:

> avg(aa$pipelat)
Column avg(pipelat) 

那么,我怎样才能显示或知道函数的值呢? 顺便说一句,参数是数据帧的函数工作正常,比如 agg。只是不知道如何处理参数为列的函数

刚收到。以下格式有效。

head(selectExpr(df,"max(laidyear)","min(type)"))

head() 仅 return 结果数据帧的第一行。
rdf <- collect(sdf)
将分布式 Spark DataFrame 转换为可以显示的本地 R data.frame。

因此,对于第二个 post 中的示例: collect(selectExpr(df,"max(laidyear)","min(type)")) ...将 return layyear 的所有值的结果,而不仅仅是前 6 行。