如何在sparkr中使用avg、max等统计函数
how to use statistics functions like avg, max and so on in sparkr
我正在使用 SparkR。现在我在使用 avg、max 等统计函数时遇到了问题。首先,我读了一个 json 文件,如:
> a <- read.df(sqlContext, "/home/fengchen/mine/mydata/try.json", "json")
那么,a是spark中的dataframe,而不是普通的R dataframe。我正在尝试 https://spark.apache.org/docs/1.5.1/api/R/ 中的一些函数,但是当我使用像 avg、max、min 这样的函数时,我什么也得不到。在 RStudio 上,它显示为:
> avg(aa$pipelat)
Column avg(pipelat)
那么,我怎样才能显示或知道函数的值呢?
顺便说一句,参数是数据帧的函数工作正常,比如 agg。只是不知道如何处理参数为列的函数
刚收到。以下格式有效。
head(selectExpr(df,"max(laidyear)","min(type)"))
head()
仅 return 结果数据帧的第一行。
rdf <- collect(sdf)
将分布式 Spark DataFrame 转换为可以显示的本地 R data.frame。
因此,对于第二个 post 中的示例:
collect(selectExpr(df,"max(laidyear)","min(type)"))
...将 return layyear 的所有值的结果,而不仅仅是前 6 行。
我正在使用 SparkR。现在我在使用 avg、max 等统计函数时遇到了问题。首先,我读了一个 json 文件,如:
> a <- read.df(sqlContext, "/home/fengchen/mine/mydata/try.json", "json")
那么,a是spark中的dataframe,而不是普通的R dataframe。我正在尝试 https://spark.apache.org/docs/1.5.1/api/R/ 中的一些函数,但是当我使用像 avg、max、min 这样的函数时,我什么也得不到。在 RStudio 上,它显示为:
> avg(aa$pipelat)
Column avg(pipelat)
那么,我怎样才能显示或知道函数的值呢? 顺便说一句,参数是数据帧的函数工作正常,比如 agg。只是不知道如何处理参数为列的函数
刚收到。以下格式有效。
head(selectExpr(df,"max(laidyear)","min(type)"))
head()
仅 return 结果数据帧的第一行。
rdf <- collect(sdf)
将分布式 Spark DataFrame 转换为可以显示的本地 R data.frame。
因此,对于第二个 post 中的示例:
collect(selectExpr(df,"max(laidyear)","min(type)"))
...将 return layyear 的所有值的结果,而不仅仅是前 6 行。