带有可变参数的 Spark UDF
Spark UDF with varargs
如文档中所示,列出最多 22 个参数是唯一的选择吗?
https://spark.apache.org/docs/1.5.0/api/scala/index.html#org.apache.spark.sql.UDFRegistration
有人知道如何做类似的事情吗?
sc.udf.register("func", (s: String*) => s......
(编写跳过空值的自定义 concat 函数,当时必须有 2 个参数)
谢谢
UDF 不支持 varargs* 但您可以使用 array
函数传递任意数量的列:
import org.apache.spark.sql.functions.{udf, array, lit}
val myConcatFunc = (xs: Seq[Any], sep: String) =>
xs.filter(_ != null).mkString(sep)
val myConcat = udf(myConcatFunc)
用法示例:
val df = sc.parallelize(Seq(
(null, "a", "b", "c"), ("d", null, null, "e")
)).toDF("x1", "x2", "x3", "x4")
val cols = array($"x1", $"x2", $"x3", $"x4")
val sep = lit("-")
df.select(myConcat(cols, sep).alias("concatenated")).show
// +------------+
// |concatenated|
// +------------+
// | a-b-c|
// | d-e|
// +------------+
原始 SQL:
df.registerTempTable("df")
sqlContext.udf.register("myConcat", myConcatFunc)
sqlContext.sql(
"SELECT myConcat(array(x1, x2, x4), '.') AS concatenated FROM df"
).show
// +------------+
// |concatenated|
// +------------+
// | a.c|
// | d.e|
// +------------+
稍微复杂一点的方法是根本不使用 UDF 并用大致如下的内容组成 SQL 表达式:
import org.apache.spark.sql.functions._
import org.apache.spark.sql.Column
def myConcatExpr(sep: String, cols: Column*) = regexp_replace(concat(
cols.foldLeft(lit(""))(
(acc, c) => when(c.isNotNull, concat(acc, c, lit(sep))).otherwise(acc)
)
), s"($sep)?$$", "")
df.select(
myConcatExpr("-", $"x1", $"x2", $"x3", $"x4").alias("concatenated")
).show
// +------------+
// |concatenated|
// +------------+
// | a-b-c|
// | d-e|
// +------------+
但我怀疑除非您使用 PySpark,否则这样做是否值得。
* 如果您使用可变参数传递一个函数,它将从所有语法糖中剥离,并且生成的 UDF 将期望一个 ArrayType
。例如:
def f(s: String*) = s.mkString
udf(f _)
将是类型:
UserDefinedFunction(<function1>,StringType,List(ArrayType(StringType,true)))
如文档中所示,列出最多 22 个参数是唯一的选择吗?
https://spark.apache.org/docs/1.5.0/api/scala/index.html#org.apache.spark.sql.UDFRegistration
有人知道如何做类似的事情吗?
sc.udf.register("func", (s: String*) => s......
(编写跳过空值的自定义 concat 函数,当时必须有 2 个参数)
谢谢
UDF 不支持 varargs* 但您可以使用 array
函数传递任意数量的列:
import org.apache.spark.sql.functions.{udf, array, lit}
val myConcatFunc = (xs: Seq[Any], sep: String) =>
xs.filter(_ != null).mkString(sep)
val myConcat = udf(myConcatFunc)
用法示例:
val df = sc.parallelize(Seq(
(null, "a", "b", "c"), ("d", null, null, "e")
)).toDF("x1", "x2", "x3", "x4")
val cols = array($"x1", $"x2", $"x3", $"x4")
val sep = lit("-")
df.select(myConcat(cols, sep).alias("concatenated")).show
// +------------+
// |concatenated|
// +------------+
// | a-b-c|
// | d-e|
// +------------+
原始 SQL:
df.registerTempTable("df")
sqlContext.udf.register("myConcat", myConcatFunc)
sqlContext.sql(
"SELECT myConcat(array(x1, x2, x4), '.') AS concatenated FROM df"
).show
// +------------+
// |concatenated|
// +------------+
// | a.c|
// | d.e|
// +------------+
稍微复杂一点的方法是根本不使用 UDF 并用大致如下的内容组成 SQL 表达式:
import org.apache.spark.sql.functions._
import org.apache.spark.sql.Column
def myConcatExpr(sep: String, cols: Column*) = regexp_replace(concat(
cols.foldLeft(lit(""))(
(acc, c) => when(c.isNotNull, concat(acc, c, lit(sep))).otherwise(acc)
)
), s"($sep)?$$", "")
df.select(
myConcatExpr("-", $"x1", $"x2", $"x3", $"x4").alias("concatenated")
).show
// +------------+
// |concatenated|
// +------------+
// | a-b-c|
// | d-e|
// +------------+
但我怀疑除非您使用 PySpark,否则这样做是否值得。
* 如果您使用可变参数传递一个函数,它将从所有语法糖中剥离,并且生成的 UDF 将期望一个 ArrayType
。例如:
def f(s: String*) = s.mkString
udf(f _)
将是类型:
UserDefinedFunction(<function1>,StringType,List(ArrayType(StringType,true)))