如何在 Spark SQL(DataFrame) 的 UDF 中使用常量值
How to use constant value in UDF of Spark SQL(DataFrame)
我有一个包含 timestamp
的数据框。要按时间(分钟、小时或天)汇总,我尝试过:
val toSegment = udf((timestamp: String) => {
val asLong = timestamp.toLong
asLong - asLong % 3600000 // period = 1 hour
})
val df: DataFrame // the dataframe
df.groupBy(toSegment($"timestamp")).count()
这很好用。
我的问题是如何将 UDF toSegment
概括为
val toSegmentGeneralized = udf((timestamp: String, period: Int) => {
val asLong = timestamp.toLong
asLong - asLong % period
})
我试过如下,还是不行
df.groupBy(toSegment($"timestamp", $"3600000")).count()
似乎找到了名为3600000
的列。
可能的解决方案是使用常量列,但我找不到它。
您可以使用 org.apache.spark.sql.functions.lit()
创建常量列:
import org.apache.spark.sql.functions._
df.groupBy(toSegment($"timestamp", lit(3600000))).count()
我有一个包含 timestamp
的数据框。要按时间(分钟、小时或天)汇总,我尝试过:
val toSegment = udf((timestamp: String) => {
val asLong = timestamp.toLong
asLong - asLong % 3600000 // period = 1 hour
})
val df: DataFrame // the dataframe
df.groupBy(toSegment($"timestamp")).count()
这很好用。
我的问题是如何将 UDF toSegment
概括为
val toSegmentGeneralized = udf((timestamp: String, period: Int) => {
val asLong = timestamp.toLong
asLong - asLong % period
})
我试过如下,还是不行
df.groupBy(toSegment($"timestamp", $"3600000")).count()
似乎找到了名为3600000
的列。
可能的解决方案是使用常量列,但我找不到它。
您可以使用 org.apache.spark.sql.functions.lit()
创建常量列:
import org.apache.spark.sql.functions._
df.groupBy(toSegment($"timestamp", lit(3600000))).count()