如何在 Spark 的 github 中查看 Functions.Scala 中的代码
How can I see the code in Functions.Scala in Spark's github
我正在尝试为 spark 1.5 的标准偏差编写自己的 UDF,并希望看到 1.6 的实现。谢谢。如果这不可能,我将如何编写一个 udf 来计算给定列名的列的标准偏差:(在 scala 中):
def stddev(columnName: String): Column = {}
您可以在聚合中使用 UDF
计算标准偏差,如下所示:
val df = sc.parallelize(Seq(1,2,3,4)).toDF("myCol")
df.show
>+-----+
>|myCol|
>+-----+
>| 1|
>| 2|
>| 3|
>| 4|
>+-----+
def stddev(col: Column): Column = sqrt(avg(col * col) - avg(col) * avg(col))
df.agg(stddev($"myCol")).first
> [1.118033988749895]
我正在尝试为 spark 1.5 的标准偏差编写自己的 UDF,并希望看到 1.6 的实现。谢谢。如果这不可能,我将如何编写一个 udf 来计算给定列名的列的标准偏差:(在 scala 中):
def stddev(columnName: String): Column = {}
您可以在聚合中使用 UDF
计算标准偏差,如下所示:
val df = sc.parallelize(Seq(1,2,3,4)).toDF("myCol")
df.show
>+-----+
>|myCol|
>+-----+
>| 1|
>| 2|
>| 3|
>| 4|
>+-----+
def stddev(col: Column): Column = sqrt(avg(col * col) - avg(col) * avg(col))
df.agg(stddev($"myCol")).first
> [1.118033988749895]