PySpark:检索数据框中各组的均值和均值附近的值计数

PySpark: retrieve mean and the count of values around the mean for groups within a dataframe

我的原始数据采用表格格式。它包含来自不同变量的观察结果。每个观测值都有变量名、时间戳和当时的值。

Variable [string], Time [datetime], Value [float]

数据在 HDFS 中存储为 Parquet,并加载到 Spark Dataframe (df) 中。来自那个数据框。

现在我想为每个变量计算默认统计数据,例如均值、标准差和其他。之后,一旦检索到均值,我想 filter/count 该变量的那些值非常接近均值。

因此我需要先获取每个变量的平均值。这就是为什么我使用 GroupBy 来获取每个变量(而不是整个数据集)的统计信息。

df_stats = df.groupBy(df.Variable).agg( \
    count(df.Variable).alias("count"), \
    mean(df.Value).alias("mean"), \
    stddev(df.Value).alias("std_deviation"))

有了每个变量的均值,我就可以过滤那些围绕均值的特定变量的值(只是计数)。因此,我需要该变量的所有观察值(值)。这些值在原始数据帧 df 中,而不在 aggregated/grouped 数据帧中 df_stats.

最后,我想要一个像 aggregated/grouped df_stats 这样的数据框,其中包含一个新列 "count_around_mean".

我正在考虑使用 df_stats.map(...) 或 df_stats.join(df, df.Variable)。但是我卡在了红色箭头上:(

问题:你是怎么意识到的?

临时解决方案:同时我正在使用基于您的想法的解决方案。但是 stddev 范围 2 和 3 的范围函数不起作用。它总是产生一个

AttributeError saying NullType has no _jvm

from pyspark.sql.window import Window
from pyspark.sql.functions import *
from pyspark.sql.types import *

w1 = Window().partitionBy("Variable")
w2 = Window.partitionBy("Variable").orderBy("Time")

def stddev_pop_w(col, w):
    #Built-in stddev doesn't support windowing
    return sqrt(avg(col * col).over(w) - pow(avg(col).over(w), 2))

def isInRange(value, mean, stddev, radius):
    try:
        if (abs(value - mean) < radius * stddev):
            return 1
        else:
            return 0
    except AttributeError:
        return -1

delta = col("Time").cast("long") - lag("Time", 1).over(w2).cast("long")
#f = udf(lambda (value, mean, stddev, radius): abs(value - mean) < radius * stddev, IntegerType())
f2 = udf(lambda value, mean, stddev: isInRange(value, mean, stddev, 2), IntegerType())
f3 = udf(lambda value, mean, stddev: isInRange(value, mean, stddev, 3), IntegerType())

df \
    .withColumn("mean", mean("Value").over(w1)) \
    .withColumn("std_deviation", stddev_pop_w(col("Value"), w1)) \
    .withColumn("delta", delta)
    .withColumn("stddev_2", f2("Value", "mean", "std_deviation")) \
    .withColumn("stddev_3", f3("Value", "mean", "std_deviation")) \
    .show(5, False)

#df2.withColumn("std_dev_3", stddev_range(col("Value"), w1)) \

Spark 2.0+:

您可以将 stddev_pop_w 替换为内置的 pyspark.sql.functions.stddev* 函数之一。

Spark < 2.0:

一般不需要用join聚合。相反,您可以使用 window 函数在不折叠行的情况下计算统计信息。假设您的数据如下所示:

import numpy as np
import pandas as pd
from pyspark.sql.functions import mean

n = 10000
k = 20

np.random.seed(100)

df = sqlContext.createDataFrame(pd.DataFrame({
    "id": np.arange(n),
    "variable": np.random.choice(k, n),
    "value": np.random.normal(0,  1, n)
}))

您可以通过 variable:

分区来定义 window
from pyspark.sql.window import Window

w = Window().partitionBy("variable")

并按如下方式计算统计数据:

from pyspark.sql.functions import avg, pow, sqrt

def stddev_pop_w(col, w):
    """Builtin stddev doesn't support windowing
    You can easily implement sample variant as well
    """
    return sqrt(avg(col * col).over(w) - pow(avg(col).over(w), 2))


(df
    .withColumn("stddev", stddev_pop_w(col("value"), w))
    .withColumn("mean", avg("value").over(w))
    .show(5, False))

## +---+--------------------+--------+------------------+--------------------+
## |id |value               |variable|stddev            |mean                |
## +---+--------------------+--------+------------------+--------------------+
## |47 |0.77212446947439    |0       |1.0103781346123295|0.035316745261099715|
## |60 |-0.931463439483327  |0       |1.0103781346123295|0.035316745261099715|
## |86 |1.0199074337552294  |0       |1.0103781346123295|0.035316745261099715|
## |121|-1.619408643898953  |0       |1.0103781346123295|0.035316745261099715|
## |145|-0.16065930935765935|0       |1.0103781346123295|0.035316745261099715|
## +---+--------------------+--------+------------------+--------------------+
## only showing top 5 rows

仅用于比较聚合与连接:

from pyspark.sql.functions import stddev, avg, broadcast

df.join(
    broadcast(df.groupBy("variable").agg(avg("value"), stddev("value"))),
    ["variable"]
)