计算 Spark DataFrame 中分组数据的标准差

Question

我有从 csv 中获取并转换为 DataFrame 的用户日志，以便利用 SparkSQL 查询功能。单个用户每小时会创建大量条目，我想为每个用户收集一些基本统计信息；实际上只是用户实例的计数、平均值和众多列的标准差。通过使用 groupBy($"user") 和带有 SparkSQL 函数的聚合器，我能够快速获取均值和计数信息，用于 count 和 avg:

val meanData = selectedData.groupBy($"user").agg(count($"logOn"),
avg($"transaction"), avg($"submit"), avg($"submitsPerHour"), avg($"replies"),
avg($"repliesPerHour"), avg($"duration"))

但是，我似乎找不到一种同样优雅的方法来计算标准偏差。到目前为止，我只能通过映射字符串、双对并使用 StatCounter().stdev 实用程序来计算它：

val stdevduration = duration.groupByKey().mapValues(value =>
org.apache.spark.util.StatCounter(value).stdev)

然而，这 returns 是一个 RDD，我想尝试将其全部保存在 DataFrame 中，以便对返回的数据进行进一步查询。

Answer 1

Spark 1.6+

您可以使用 stddev_pop 计算总体标准差，并使用 stddev / stddev_samp 计算无偏样本标准差：

import org.apache.spark.sql.functions.{stddev_samp, stddev_pop}

selectedData.groupBy($"user").agg(stdev_pop($"duration"))

Spark 1.5及以下版本（原答案）：

不太漂亮和有偏见（与 describe 返回的值相同）但使用公式：

你可以这样做：

import org.apache.spark.sql.functions.sqrt

selectedData
    .groupBy($"user")
    .agg((sqrt(
        avg($"duration" * $"duration") -
        avg($"duration") * avg($"duration")
     )).alias("duration_sd"))

您当然可以创建一个函数来减少混乱：

import org.apache.spark.sql.Column
def mySd(col: Column): Column = {
    sqrt(avg(col * col) - avg(col) * avg(col))
}

df.groupBy($"user").agg(mySd($"duration").alias("duration_sd"))

也可以使用 Hive UDF:

df.registerTempTable("df")
sqlContext.sql("""SELECT user, stddev(duration)
                  FROM df
                  GROUP BY user""")

图片来源：https://en.wikipedia.org/wiki/Standard_deviation

Answer 2

接受的代码无法编译，因为它有错字（正如 MRez 所指出的）。下面的代码片段有效并经过测试。

对于 Spark 2.0+ :

import org.apache.spark.sql.functions._
val _avg_std = df.groupBy("user").agg(
        avg(col("duration").alias("avg")),
        stddev(col("duration").alias("stdev")),
        stddev_pop(col("duration").alias("stdev_pop")),
        stddev_samp(col("duration").alias("stdev_samp"))
        )

计算 Spark DataFrame 中分组数据的标准差

Calculate the standard deviation of grouped data in a Spark DataFrame

scala

apache-spark

apache-spark-sql